"); //-->
统一规范
这里,我把数仓规范,一共分为四大类:设计规范、流程规范、质量管理规范、安全规范。
设计规范,又划分为四部分:数据模型设计、命名规范、指标体系设计、词根库。
流程规范,主要是从数仓管理的角度,对数仓场景下的各种流程进行约束。核心流程一共提炼出来五类:需求提交、模型设计、ETL开发、前端开发、上线流程。
质量管控规范,之所以单独列出来,是因为数据质量,跟模型设计一样,对数仓建设的成败关系极大。试想下,一个数据质量都无法保证的数据仓库,有谁会用? 数据质量规范,主要是从数据流动的角度分为三类:源端管控、数仓管理、应用管控。
安全规范,随着国家、社会、企业对数据的越来越重视,另一方面随着互联网的普及使得个人隐私变的越来越难以保证,数据泄露时有发生。数据安全对于数据仓库的重要程度急速提升,所以安全规范被单列了出来。从大的层面上安全规范分为三类:网络安全、账号安全、数据安全。
横向分层
纵向分域
命名清晰、可理解附加字段
其它要求
统一规范
流程规范
公共字段=词根组合+其它关键词。
公共字段放入词根库不太严谨,但字段命名时候可以直接取用,降低了命名不一致的风险,所以工具化不太完善的公司推荐这样使用。
质量管控规范
内外网隔离,外网环境访问内网需要登录 VPN;
核心数据存储、功能模块,只开放给特定的少部分人。
每个人分配独立的账号,赋予合理的权限,禁止相互借用。
数据库、大数据组件开通多个角色账号。比如只读、部分表读写、管理员等。当然还可以按实际需求细分。Hive、ODPS 的话也是可以实现单人单号的。
服务器登录。也是单人单号
公司内部应用账号。单人单号。
至少做到表级别的权限控制,实在不行就分库。
ODS 层不对外开放,只对 ODS-DWD 层相关部分开发人员可见。
特别敏感数据,如用户年龄、号码、身份证好、地址等,应该放到专门的数据库里,数仓主库只存放用户 ID 和其它必须字段。例如年龄应该脱敏成年龄区间或开发特定的 UDF 转化函数。
我们分别从设计规范、流程规范、质量管控、数据安全四个方面,详细阐述了数仓规范。应该已经涵盖了数仓规范的方方面面。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
AI热潮引发多层陶瓷电容MLCC供应短缺
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
GPU:面临工作负载转变的高吞吐架构
海联达(Aigale)Ai-HD1 无线全高清套件拆解
万家乐JSYZ5-AI燃气热水器电路图
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
英伟达CFO:我们早就知道内存大涨价要来了
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
基于Microchip MCU的AI/ML培训教程1
赋能边缘端对话式人工智能
WTC-AI太阳能热水器电路图
释说芯语16:硬科技:构建企业未来之路(附PPT)
AI竞争进入下半场:从“卷参数”到“卷单价”
EEPW2018年6月刊(5G)
iCAN-4017 AI功能模块
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
基于Microchip MCU的AI/ML培训教程2
WTC-AI型太阳能热水器电路图
CSR8670CSR8675智能语音Alexa蓝牙方案开发
基于Microchip MCU的AI/ML培训教程3
EEPW2018年3月刊(工业物联网)
基于Ai-WB2-12F与Rd-04的雷达检测系统
人工智能是如何帮助阻止造假者的?
继上次海联达Ai-ap100拆机之电源改造
基于VisitionX制造智能眼镜
尼吉康的事业介绍
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
AI 驱动估值飙升:光通信半导体企业市值暴涨
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
电子元件培训教材