大数据概述

发布时间:2024年01月04日

概述

先了解几个常用的网站

hadoop

hadoop 模块

hadoop 包含了四块内容,如下图
在这里插入图片描述

  • Hadoop Common 通用工具(其实也不能算一个模块)
  • HDFS 分布式文件系统
  • Hadoop YARN 任务调试与集群资源管理
  • Hadoop MapReduce 基于 YARN 的分布式大数据处理系统 (后面使用 hive、spark 、flink)

注意:hadoop官方文档就是基本上按这四个模块讲述的,在此点出,方便想阅读的同学,更能系统有脉络的阅读。具体参考下面的图

在这里插入图片描述

hadoop 狭义上就已代表了 大数据 的基础生态。

hadoop 发行版

apache社区版本

至 hadoop 官网进行下载

缺点:

  • 1.组件之间 jar 包冲突问题,组件只保证了自己无问题,并没有测试组件之间是否有版本冲突,特别是组件选择各自版本的时候。这种情况是比较恶心的。
  • 2.有问题,也不容易定位,网上相同的报错,不一定是同一种情况导致的,所以有时候,看别人这样是解决了,但自己同样配置,不能生效。

CDP(CDH+HDP)

最大的问题就是收费,一年下来,费用也是不少。

其它云产商

阿狸、华为等等。

框架选择

选择框架根据以下条件

  • 社区活跃度
  • 框架在业界的使用程度

对于 Hadoop MapReduce 的替代品有很多,Hive、Spark、Flink。根据功能侧重的点不同,都是需要的存在,可以通过 Kyuubi 这类 网关 统一整合起来。

hadoop 安装

文章名称链接
hadoop安装基础环境安装一地址
hadoop一主三从安装地址

后续,会有 HAk8s 上部署的相关文章。

结束

至此,大数据概述至此就结束了,如有疑问,欢迎评论区留言。

文章来源:https://blog.csdn.net/2301_79691134/article/details/135359638
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。