【2023Hadoop大数据技术应用期末复习】填空题题型整理

发布时间：2024年01月01日

大数据的 4V 特征包含（）（）（）（）
```
答案：大量、多样、高速、价值
```
Hadoop 三大组件包含（）（）（）
```
答案：HDFS、MapReduce、Yarn
```
Hadoop2.x 版本中的 HDFS 是由（）（）（）组成
```
答案：NameNode、DataNode、Secondary NameNode
```
Hadoop 发行版本分为
```
答案：开源社区版、商业版
```
目前 Hadoop 发布的版本主要有（）（）（）
```
答案：Hadoop1.x、Hadoop2.x、Hadoop3.x
```

Hadoop 集群部署方式分别是（）（）和（）

答案：独立模式、伪分布模式、完全分布模式

加载环境变量配置文件需要使用（）命令
```
答案：source /etc/profile
```
格式化 HDFS 集群命令是（）
```
答案：hadoop namenode -format
```
脚本一键启动 Hadoop 集群服务命令是（）
```
答案：start-all.sh
```
Hadoop 默认开设 HDFS 文件系统端口号（）和监控 Yarn 集群端口号（）
```
答案：50070、8088
```
（）用于维护文件系统名称并管理客户端对文件的访问，（）存储真实的数据块
```
答案：NameNode、DataNode
```
NameNode 与 DataNode 通过（）机制互相通信
```
答案：心跳检测
```
NameNode 以元数据维护着（）（）文件
```
答案：fsimage、EditLog
```
在 MapReduce 中，（）阶段负责将任务分解，（）阶段将任务合并
```
答案：Map、Reduce
```

MapReduce 工作流程分为（）（）（）（）（）（）

答案：分片、格式化数据源、执行MapTask、执行Shuffle过程、执行ReduceTask、写入文件

Partitioner 组件的目的是（）

答案：将key均匀分布在 ReduceTask 上

Zookeeper 集群主要有（）（）（）三种角色
```
答案：Leader、Follower、Observer
```
Znode有两种节点，分别是（）（）
```
答案：永久节点、临时节点
```
Zookeeper引入（）机制实现分布式的通知功能
```
答案：Watch
```

Yarn 的核心组件包含（）（）（）

答案：ResourceManager、NodeManager、ApplicationMaster

ResourceManager 内部包含了两个组件，分别是（）（）
```
答案：调度器、应用程序管理器
```
数据仓库是面向（）（）（）和时变的数据集合，用于支持管理决策
```
答案：主题的、集成的、非易失的
```
Hive 默认元数据存储在（）数据库中
```
答案：Derby
```

Hive建表时设置分割字符命令（）

答案：row format delimited fields terminated by char

Hive查询语句 select ceil(2.34) 输出内容是（）
```
答案：3
```
Hive创建桶表关键字（），且Hive默认分桶数量是（）。
```
答案：clustered by、 -1
```
Flume 分为两个版本，分别是（）（）
```
答案：Flume-og、Flume-ng
```
Flume的核心是把数据从数据源通过（）收集过来，再将收集的数据通过（）汇集到指定的（）
```
答案：数据采集器、缓冲通道、接收器
```
Flume采用三层架构，分别为（）（）（），每一层均可以水平扩展
```
答案：agent、collector、storage
```
Flume的负载均衡接收器处理器支持使用（）（）机制进行流量分配，其默认选择机制为（）
```
答案：轮询、随机、轮询
```
Azkaban是由Linkedin公司开源的一个（），用于在一个工作流内以一个特定的顺序运行一组工作和流程。
```
答案：批量工作流任务调度器
```
Azkaban定义了一种（）格式来建立任务之间的依赖关系，并提供一个易于使用的（）维护和跟踪工作流。
```
答案：KV文件、UI界面
```
Azkaban工作流管理器的特点是所有的任务资源文件都需要（）上传
```
答案：压缩
```
Azkaban工作流管理器由三个核心部分组成，具体分别是（）（）（）
```
答案：Relational Database、AzkabanWebServer、AzkabanExecutorServer
```

Azkaban提供三种部署模式：轻量级的（）重量级（）的和（）

答案：独立服务器模式、双服务器模式、分布多执行器模式

.Sqoop主要用于在（）和（）之间进行传输数据
```
答案：Hadoop、关系型数据库
```
Sqoop底层利用（）技术以（）方式加快了数据传输速度，并且具有较好的容错性功能
```
答案：MapReduce、批处理
```
从数据库导入HDFS时，指定以制表符作为字段分隔符参数是（）
```
答案：--fields-terminated-by '\t'
```

文章来源:https://blog.csdn.net/m0_50957668/article/details/135320492
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！