元数据是关于数据的组织、 数据域及其关系的信息, 简言之, 元数据就是描述数据的数据。
举例:图书馆中的图书目录,或者一本书的目录。
业务元数据描述数据的业务含义、 业务规则等。 明确业务元数据可以让人们更容易理解和使用业务元数据。 元数据消除了数据二义性, 让人们对数据有一致的认知, 避免“自说自话”, 进而为数据分析和应用提供支撑。
常见的业务元数据有:
技术元数据是结构化处理后的数据, 方便计算机或数据库对数据进行识别、 存储、 传输和交换。 技术元数据可以服务于开发人员, 让开发人员更加明确数据的存储、 结构, 从而为应用开发和系统集成奠定基础。 技术元数据也可服务于业务人员, 通过元数据厘清数据关系, 让业务人员更快速地找到想要的数据, 进而对数据的来源和去向进行分析, 支持数据血缘追溯和影响分析。
常见的技术元数据有:
操作元数据描述数据的操作属性, 包括管理部门、 管理责任人等。 明确管理属性有利于将数据管理责任落实到部门和个人, 是数据安全管理的基础。
常见的操作元数据有:
描述: 对数据对象的内容、 属性的描述, 这是元数据的基本功能, 是各组织、 各部门之间达成共识的基础。
定位: 有关数据资源位置方面的信息描述, 如数据存储位置、 URL等记录, 可以帮助用户快速找到数据资源, 有利于信息的发现和检索。
检索: 在描述数据的过程中, 将信息对象中的重要信息抽出标引并加以组织, 建立它们之间的关系, 为用户提供多层次、 多途径的检索体系, 帮助用户找到想要的信息。
管理: 对数据对象的版本、 管理和使用权限的描述, 方面信息对象管理和使用。
评估: 由于有元数据描述, 用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识, 方便用户的使用。
交互: 元数据对数据结构、 数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转, 并确保流转过程中数据标准的一致性。
元数据管理是对涉及的业务元数据、 技术元数据、 操作元数据进行盘点、集成和管理。 采用科学有效的机制对元数据进行管理, 并面向开发人员、 业务用户提供元数据服务, 可以满足用户的业务需求, 为企业业务系统和数据分析的开发、 维护等过程提供支持。
可以从技术、 业务和应用三个角度理解元数据管理。
技术角度: 元数据管理着企业的数据源系统、 数据平台、 数据仓库、 数据模型、 数据库、 表、 字段以及字段间的数据关系等技术元数据。
业务角度: 元数据管理着企业的业务术语表、 业务规则、 质量规则、 安全策略以及表的加工策略、 表的生命周期信息等业务元数据。
**应用角度: 元数据管理为数据提供了完整的加工处理全链路跟踪, 方便数据的溯源和审计, 这对于数据的合规使用越来越重要。 通过数据血缘分析, 追溯发生数据质量问题和其他错误的根本原因, 并对更改后的元数据进行影响分析。 **
满足用户对业务和数据理解的需求, 建立标准的企业内部知识传承的信息承载平台, 建立业务分析知识库, 实现知识共享。
** 能够回答以下问题:企业有哪些数据?什么是企业有效客户? 有效客户和客户有何区别?什么是产品的生命周期?这个数据还叫什么名字?数据仓库中的存储过程是谁写的? 它用来干什么? 现在还在用吗?**
**典型应用有数据资源目录和业务术语表。 **
让用户能够清晰地了解数据仓库中数据流的来龙去脉、 业务处理规则、 转换情况等, 提高数据的溯源能力, 支持数据仓库的成长需求, 降低因员工换岗造成的影响。 元数据有助于回答以下问题:这张表是从哪个业务系统中抽取过来的?ETL过程是否对数据进行过加工处理? 进行了哪些处理?指标数据是从哪些表汇总计算出来的?
**典型应用有血缘分析、 影响分析、 全链路分析。 **
通过非冗余、 非重复的元数据信息提高数据完整性、 准确性。 元数据管理解决的问题是如何将业务系统中的数据分门别类地进行管理, 建立报警、 监控机制, 出现故障时能及时发现问题, 为数据仓库的数据质量监控提供基础素材。
能够回答以下问题:今天的在线用户数为什么是0?为什么A报表中的本月收入值与B报表中的不同?
**典型应用有指标标准和数据质量规则。 **
数据即资产的理念已经得到企业的广泛认可。 面对不断增长、 不断变化、日益复杂的数据环境, 企业需要数据资产的简单发现和跟踪能力。 通过管理元数据, 企业能够快速发现数据资产的分布和关系, 形成企业数据资产目录。
通过元数据管理, 建立基于CWM的元数据仓库, 实现企业元数据的统一管理, 并将元数据仓库作为“单一数据源”, 为企业的应用开发提供可复用的数据模型和元数据标准, 以实现元数据的重复利用, 减少冗余或未使用数据, 从而提高工作效率, 降低软件开发成本, 缩短项目交付时间。
企业重要的数据资产常常因关键员工的调离或离职而“消失”, 这里所谓的“消失”通常并不是因为员工将数据恶意删除或拿走, 而是企业数据资产的存放方式、 存储位置等关键数据都只留在关键员工的大脑中, 一旦该员工离开公司, 数据资产也就隐没在“茫茫数海”中了! 而统一的元数据管理能够降低企业这种数据“消失”的风险。
数据来自什么地方以及如何产生、 处理和交付数据, 这为用户提供了重要的背景知识。 探查源系统中的数据可以暴露和解决数据的不准确、 不一致问题, 从而提升数据的质量。此外, 元数据的统一管理, 提供变更管理、 版本控制等能力为不断变更的业务需求所带来的影响提供了支撑, 并加快了新应用开发项目和数据集成项目的开发速度。 开发人员可以依赖统一、 标准的元数据来轻松、 准确地确定他们的项目所需的数据, 从而节约项目开发成本, 提升项目交付效率。
在数据治理项目中, 常见的元数据有数据源的元数据、 数据加工处理过程的元数据、 数据仓库或数据主题库的元数据、 数据应用层的元数据、 数据接口服务的元数据等。
元数据采集内容:
从技术的角度看, 元数据管理一般包括元模型管理、 元数据审核、 元数据维护、 元数据版本管理、 元数据变更管理等功能。
按数据域对企业数据资源进行全面盘点和分类, 并根据元数据字典自动生成企业数据资产的全景地图。 该地图可以告诉你有哪些数据, 在哪里可以找到这些数据, 能用这些数据干什么。 数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程, 通过不同层次的图形展现粒度控制, 满足业务上不同应用场景的图形查询和辅助分析需要。
元数据血缘分析会告诉你数据来自哪里, 经过了哪些加工。 其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源, 快速定位到问题数据的来源和加工过程, 减少数据问题排查分析的时间和难度。
建立元数据查询、 访问的统一接口规范, 以将企业核心元数据完整、 准确地提取到元数据仓库中进行集中管理和统一共享。元数据接口规范主要包括接口编码方式、 接口响应格式、 接口协议、 接口安全、 连接方式、 接口地址等方面的内容。