介绍:Apache Hudi是一个开源的流数据湖平台,由Uber开发并现在已经成为Apache的顶级项目。Hudi的设计使得您可以在Hadoop兼容的存储之上存储大量数据,并且它提供了两种原语,除了经典的批处理之外,还可以在数据湖上进行流处理。
Hudi将核心仓库和数据库功能直接带到数据湖中,包括表、事务、高效的upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发,同时保持数据以开源文件格式保留。具体来说,Hudi的一个重要特性是Timeline,可以理解为Hudi表的一个时间线,记录了Hudi表在不同时刻的信息和行为。这个Timeline由TimelineServer来管理,通常存在于Hdfs、RDBMS等持久化存储介质中。通过Timeline可以方便地做版本管理以及实现增量处理等和版本/时间相关的功能。
网址:https://dongkelun.com/tags/Hudi/
1、大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)
网址:https://www.bilibili.com/video/BV1ue4y1i7na/?vd_source=849186cc0cbe77dd51dcd8d1dc63a69b
2、黑马程序员大数据数据湖架构Hudi视频教程,从Apache Hudi基础到项目实战(涵盖HDFS+Spark+Flink+Hive等知识点
网址:https://www.bilibili.com/video/BV1sb4y1n7hK/?spm_id_from=333.337.search-card.all.click&vd_source=849186cc0cbe77dd51dcd8d1dc63a69b
网址:https://hudi.apache.org/cn/docs/next/overview/
以上就是个人觉得不错的学习网站,希望能帮到学习大数据的人!