Spark-RDD的依赖

发布时间：2024年01月13日

RDD的依赖

rdd之间是有依赖关系

窄依赖
- 每个父RDD的一个Partition最多被子RDD的一个Partition所使用
- 父rdd和子rdd的分区是一对一
  - map
  - flatMap
  - fliter
宽依赖
- 父RDD的Partition会被多个子RDD的Partition所使用
- 父rdd和子rdd的分区是一对多
  - grouBy()
  - grouByKey()
  - sortBy()
  - sortByKey()
  - reduceBykey()
  - distinct()

rdd1 --> rdd2 -->rdd3

Spark中有DAG管理依赖关系
- DAG叫做有向无环图，是一个图计算算法。
- 管理rdd依赖关系，保证rdd按照依赖关系进行数据的顺序计算
- 会根据rdd的依赖关系将计算过程分成多个计算步骤，每个计算步骤称为一个stage
- 在计算的rdd依赖关系中，一旦发生了宽依赖，就会进行步骤拆分
日志查看依赖关系和计算流程

服务启动： /export/server/spark/sbin/start-history-server.sh

程序运行期间查看 4040端口交互式开发

程序运行结束后查看 18080端口
- APP 是计算应用程序
  - job 计算任务（执行算子触发计算任务）
    - DAG 管理依赖关系
      - stage 计算步骤的划分
        task线程完成该步骤下方法计算

文章来源:https://blog.csdn.net/weixin_58026490/article/details/135565545
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！