大数据的 4V 特征包含()()()()
答案:大量、多样、高速、价值
Hadoop 三大组件包含()()()
答案:HDFS、MapReduce、Yarn
Hadoop2.x 版本中的 HDFS 是由()()()组成
答案:NameNode、DataNode、Secondary NameNode
Hadoop 发行版本分为
答案:开源社区版、商业版
目前 Hadoop 发布的版本主要有()()()
答案:Hadoop1.x、Hadoop2.x、Hadoop3.x
Hadoop 集群部署方式分别是()()和()
答案:独立模式、伪分布模式、完全分布模式
加载环境变量配置文件需要使用()命令
答案:source /etc/profile
格式化 HDFS 集群命令是()
答案:hadoop namenode -format
脚本一键启动 Hadoop 集群服务命令是()
答案:start-all.sh
Hadoop 默认开设 HDFS 文件系统端口号()和监控 Yarn 集群端口号()
答案:50070、8088
()用于维护文件系统名称并管理客户端对文件的访问,()存储真实的数据块
答案:NameNode、DataNode
NameNode 与 DataNode 通过()机制互相通信
答案:心跳检测
NameNode 以元数据维护着()()文件
答案:fsimage、EditLog
在 MapReduce 中,()阶段负责将任务分解,()阶段将任务合并
答案:Map、Reduce
MapReduce 工作流程分为()()()()()()
答案:分片、格式化数据源、执行MapTask、执行Shuffle过程、执行ReduceTask、写入文件
Partitioner 组件的目的是()
答案:将key均匀分布在 ReduceTask 上
Zookeeper 集群主要有()()()三种角色
答案:Leader、Follower、Observer
Znode有两种节点,分别是()()
答案:永久节点、临时节点
Zookeeper引入()机制实现分布式的通知功能
答案:Watch
Yarn 的核心组件包含()()()
答案:ResourceManager、NodeManager、ApplicationMaster
ResourceManager 内部包含了两个组件,分别是()()
答案:调度器、应用程序管理器
数据仓库是面向()()()和时变的数据集合,用于支持管理决策
答案:主题的、集成的、非易失的
Hive 默认元数据存储在()数据库中
答案:Derby
Hive建表时设置分割字符命令()
答案:row format delimited fields terminated by char
Hive查询语句 select ceil(2.34)
输出内容是()
答案:3
Hive创建桶表关键字(),且Hive默认分桶数量是()。
答案:clustered by、 -1
Flume 分为两个版本,分别是()()
答案:Flume-og、Flume-ng
Flume的核心是把数据从数据源通过()收集过来,再将收集的数据通过()汇集到指定的()
答案:数据采集器、缓冲通道、接收器
Flume采用三层架构,分别为()()(),每一层均可以水平扩展
答案:agent、collector、storage
Flume的负载均衡接收器处理器支持使用()()机制进行流量分配,其默认选择机制为()
答案:轮询、随机、轮询
Azkaban是由Linkedin公司开源的一个(),用于在一个工作流内以一个特定的顺序运行一组工作和流程。
答案:批量工作流任务调度器
Azkaban定义了一种()格式来建立任务之间的依赖关系,并提供一个易于使用的()维护和跟踪工作流。
答案:KV文件、UI界面
Azkaban工作流管理器的特点是所有的任务资源文件都需要()上传
答案:压缩
Azkaban工作流管理器由三个核心部分组成,具体分别是()()()
答案:Relational Database、AzkabanWebServer、AzkabanExecutorServer
Azkaban提供三种部署模式:轻量级的()重量级()的和()
答案:独立服务器模式、双服务器模式、分布多执行器模式
.Sqoop主要用于在()和()之间进行传输数据
答案:Hadoop、关系型数据库
Sqoop底层利用()技术以()方式加快了数据传输速度,并且具有较好的容错性功能
答案:MapReduce、批处理
从数据库导入HDFS时,指定以制表符作为字段分隔符参数是()
答案:--fields-terminated-by '\t'