大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)
- B站直达:https://www.bilibili.com/video/BV1ue4y1i7na??尚硅谷数据湖Hudi视频教程
- 百度网盘:https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
- 阿里云盘:https://www.aliyundrive.com/s/uMCmjb8nGaC(教程配套资料请从百度网盘下载)
尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【集成Spark】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记04【集成Flink】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记05【集成Hive】
目录
第3章 核心概念
3.1 基本概念
3.1.1 时间轴(TimeLine)
3.1.2 文件布局(File Layout)
3.1.2 文件布局(File Layout)
3.1.3 索引(Index)
1)原理
3.1.3 索引(Index)
2)索引选项
3.1.3 索引(Index)
3)全局索引与非全局索引
3.1.3 索引(Index)
4)索引的选择策略
3.1.4 表类型(Table Types)
1)Copy On Write
3.1.4 表类型(Table Types)
2)Merge On Read
3.1.4 表类型(Table Types)
3)COW与MOR的对比
cow:批处理、mor:流批都行,更推荐流。
3.1.5 查询类型(Query Types)
1)Snapshot Queries? ? ?快照查询:全量最新。
2)Incremental Queries
3)Read Optimized Queries
3.1.5 查询类型(Query Types)
4)不同表支持的查询类型
3.2 数据写
3.2.1 写操作
3.2.2 写流程(UPSERT)
1)Copy On Write
2)Merge On Read
3.2.3 写流程(INSERT)
1)Copy On Write
2)Merge On Read
3.2.4 写流程(INSERT OVERWRITE)
1)COW
2)MOR
3)优点
4)缺点
3.2.5 Key 生成策略
3.2.6 删除策略
1)逻辑删
2)物理删
3.2.7 总结
3.3 数据读
3.3.1 Snapshot读
3.3.2 Incremantal读
3.3.3 Streaming读
3.4 Compaction