尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】

发布时间:2024年01月09日

大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)

  1. B站直达:https://www.bilibili.com/video/BV1ue4y1i7na??尚硅谷数据湖Hudi视频教程
  2. 百度网盘:https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
  3. 阿里云盘:https://www.aliyundrive.com/s/uMCmjb8nGaC(教程配套资料请从百度网盘下载)

  1. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】

  2. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】

  3. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【集成Spark】

  4. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记04【集成Flink】

  5. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记05【集成Hive】

目录

第3章 核心概念

010

011

012

013

014

015

016

017

018

019

020

021

022

023

024

025


第3章 核心概念

010

第3章 核心概念

3.1 基本概念

3.1.1 时间轴(TimeLine)

011

3.1.2 文件布局(File Layout)

012

3.1.2 文件布局(File Layout)

013

3.1.3 索引(Index)

1)原理

014

3.1.3 索引(Index)

2)索引选项

015

3.1.3 索引(Index)

3)全局索引与非全局索引

016

3.1.3 索引(Index)

4)索引的选择策略

017

3.1.4 表类型(Table Types)

1)Copy On Write

018

3.1.4 表类型(Table Types)

2)Merge On Read

019

3.1.4 表类型(Table Types)

3)COW与MOR的对比

cow:批处理、mor:流批都行,更推荐流。

020

3.1.5 查询类型(Query Types)

1)Snapshot Queries? ? ?快照查询:全量最新。

2)Incremental Queries

3)Read Optimized Queries

021

3.1.5 查询类型(Query Types)

4)不同表支持的查询类型

022

3.2 数据写

3.2.1 写操作

3.2.2 写流程(UPSERT)

1)Copy On Write

2)Merge On Read

023

3.2.3 写流程(INSERT)

1)Copy On Write

2)Merge On Read

3.2.4 写流程(INSERT OVERWRITE)

1)COW

2)MOR

3)优点

4)缺点

024

3.2.5 Key 生成策略

3.2.6 删除策略

1)逻辑删

2)物理删

3.2.7 总结

025

3.3 数据读

3.3.1 Snapshot读

3.3.2 Incremantal读

3.3.3 Streaming读

3.4 Compaction

文章来源:https://blog.csdn.net/weixin_44949135/article/details/135387780
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。