【华为数据之道学习笔记】5-6非结构化数据入湖

发布时间:2023年12月17日

? ? ? ? 1. 非结构化数据管理的范围

? ? ? ? 非结构化数据包括无格式的文本、各类格式的文档、图像、音频、视频等多样异构的格式文件。相较于结构化数据,非结构化数据更难以标准化和理解,因而非结构化数据的管理不仅包括文件本身,而且包括对文件的描述属性,也就是非结构化的元数据信息。这些元数据信息包括文件对象的标题、格式、Owner等基本特征,还包括对数据内容的客观理解信息,如标签、相似性检索、相似性连接等。这些元数据信息便于用户对非结构化数据进行搜索和消费。

? ? ? ? 都柏林核心元数据是一个致力于规范Web资源体系结构的国际性元数据解决方案,它定义了一个所有Web资源都应遵循的通用核心标准。

? ? ? ? 基本特征类属性由公司进行统一管理,内容增强类属性由承担数据分析工作的项目组自行设计,但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。

? ? ? ? 2. 非结构化数据入湖的4种方式

? ? ? ? 非结构化数据入湖包括基本特征元数据入湖、文件解析内容入湖、文件关系入湖和原始文件入湖4种方式,其中基本特征元数据入湖是必选内容,后面三项内容可以根据分析诉求选择性入湖和延后入湖。

? ? ? ? 1)基本特征元数据入湖

? ? ? ? 主要通过从源端集成的文档本身的基本信息入湖。入湖的过程中,数据内容仍存储在源系统,数据湖中仅存储非结构化数据的基本特征元数据。基本特征元数据入湖需同时满足如下条件。

  • 已经设计了包含基本特征元数据的索引表。

  • 已经设计了信息架构,如业务对象和逻辑实体。

  • 已经定义了索引表中每笔记录对应文件的Owner、标准、密级,认证了数据源并满足质量要求。? ? ? ??

? ? ? ?2)文件解析内容入湖

? ? ? ? 对数据源的文件内容进行文本解析、拆分后入湖。入湖的过程中,原始文件仍存储在源系统,数据湖中仅存储解析后的内容增强元数据。内容解析入湖需同时满足如下条件。

  • 已经确定解析后的内容对应的Owner、密级和使用的范围。

  • 已经获取了解析前对应原始文件的基本特征元数据。

  • 已经确定了内容解析后的存储位置,并保证至少一年内不会迁移。

? ? ? ?3)文件关系入湖

? ? ? ? 根据知识图谱等应用案例在源端提取的文件上下文关系入湖。入湖的过程中,原始文件仍存储在源系统,数据湖中仅存储文件的关系等内容增强元数据。文件关系入湖需同时满足如下条件:

  • 已经确定文件对应的Owner、密级和使用的范围。

  • 已经获取了文件的基本特征元数据。

  • 已经确定了关系实体的存储位置,并保证至少一年内不会迁移。

? ? ? ?4)原始文件入湖

? ? ? ? 根据消费应用案例从源端把原始文件搬入湖。数据湖中存储原始文件并进行全生命周期管理。原始文件入湖需同时满足如下条件。

  • 已经确定原始文件对应的Owner、密级和使用的范围。

  • 已经获取了基本特征元数据。

  • 已经确定了存储位置,并保证至少一年内不会迁移。

文章来源:https://blog.csdn.net/xqdd/article/details/135033406
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。