数仓建设学习路线(三)元数据管理
发布时间:2024年01月22日
什么是元数据?
简单来说就是描述数据的数据,更直白来说就是描述表名、表制作者、表字段、表生命周期、表存粗等信息的数据
元数据该如何管理
工具化
开源:
可通过atlas获取表依赖及信息做二次开发,或者完成可视化界面
平台化:
数据血缘
- 数据血缘功能
清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护 - 数据血缘类型
- 活跃血缘:指离线开发线上调度产出的血缘,且调度持续生效
- 静默血缘:指离线开发中,开发模式运行、线上调度已运行过但是已取消调度、线上模式严重逾期执行等。静默血缘在图中用虚线连线表示
- 数据血缘项目中使用
- 数仓中表/字段上下游查询、发送字段变更通知
- 探查除数仓外其他场景使用例如报表、olap库等等
- 如何开发血缘功能
- 团队合作搭建:与前端配合,数仓出血缘链路模型,前端完成数据填充可视化
- 使用现成组件/二次开发:Openmetadata
文章来源:https://blog.csdn.net/qq_41794285/article/details/135749661
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!