介绍:Apache Atlas是一套开源的元数据管理和治理产品,由Apache软件基金会托管。它广泛应用于大数据领域,帮助企业管理数据资产,分类和治理这些资产,并为数据分析和数据治理提供高质量的元数据信息。
随着企业业务量的增长,数据量也在不断增加。不同业务线的数据可能存储在多种类型的数据库中,最终汇集到企业的数据仓库中进行整合分析。在这种情况下,追踪数据来源和理清数据之间的关系可能会变得非常困难。如果某个环节出现问题,追溯的成本可能会非常高。因此,Atlas应运而生,它可以方便地管理元数据,并可以追溯表级别、列级别之间的关系(血缘关系),为企业的数据资产提供强有力的支撑和保障。
Atlas支持从HBase、Hive、Sqoop、Storm、Kafka等系统中提取和管理元数据,同时也可以通过Rest API的方式自行定义元数据模型,生成元数据。此外,Atlas还为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。
网址:https://atlas.apache.org/#/
网址:https://woaixiaoyuyu.github.io/2021/07/28/Apache%20Atlas%20%E6%96%87%E6%A1%A3/
网址:https://www.cnblogs.com/tree1123
1、【尚硅谷】大数据技术之Atlas数据治理
网址:https://www.bilibili.com/video/BV1jA411F76d/?spm_id_from=333.999.0.0&vd_source=849186cc0cbe77dd51dcd8d1dc63a69b
以上就是个人觉得不错的学习网站,希望能帮到学习大数据的人!