近期在频繁与数据湖hudi打交道,将一些心得进行简要总结,供大家参考。
首先,Hudi表可以支持多种数据类型,如
(1)Merge-On-Read(MOR-读时合并);
(2)Copy-On-Write(COW-写时复制);
其次,区别如下:
(1)MOR,写入快,适用于源端数据快速接入ODS层,也就是常说的贴源层的场景;
(2)COW,读取快,适用于从贴源层取数据,经过处理后在存储至标准层的场景;
最后,对MOR方式存储时产生的三种格式进行简要总结。
当hudi表按照MOR格式新建以后,会默认生成3个表,如新建 hudi_os_dev表,则会生成
? ? ? ? 常规类型:hudi_os_dev
? ? ? ? ro类型:hudi_os_dev_ro :主要优化读取性能,适用于读取操作频繁的场景
? ? ? ? ?rt类型:hudi_os_dev_rt:主要优化数据写入和实时同步,适用于需要快速写入和实时数据同步的场景。
? ? ? ? 数据接入后,可使用Dbeaver工具对ro表或rt表进行数据查询。