Hudi metadata table(元数据表)

发布时间:2024年01月15日

什么是metadata表

Metadata表即Hudi元数据表,是一种特殊的Hudi表,对用户隐藏。该表用于存放普通Hudi表的元数据信息。
Metadata表包含在普通Hudi表内部,与Hudi表是一一对应关系。

元数据表的作用

ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。
读取和写入数据时,会执行文件列表操作,以获取文件系统的当前视图。当数据集较大时,列出所有文件可能是性能瓶颈,但更重要的是,在AWS S3等云存储系统中,由于某些请求限制,大量文件列出请求有时会导致限制。元数据表将主动维护文件列表,并消除递归文件列表操作的需要。
Metadata表把当前Hudi表的分区信息,以及分区目录下的文件信息作为元数据信息,存储在一张特殊的Hudi表里面,这样当查询引擎需要list表分区文件时只需要访问这张特殊的表即可,由于元数据信息数据量本身不大,所以查询起来可以大大降低HDFS的rpc压力。
Metadata表的实现使用了Hudi MOR表,这意味着和其他任何Hudi表一样,可以被压缩(Compaction)、清理(Clean)、增量更新(incrementally updated)。 而且与其他项目中的类似实现不同,我们选择将文件列表等信息索引为HFile格式(格式可插拔),HFile提供了很好的点查性能,可以高效获取分区文件列表等信息。

相关测试

运行TPCDS基准测试时,

文章来源:https://blog.csdn.net/u011026329/article/details/135606914
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。