?????? 高速发展的信息时代,新一轮科技革命和变革正在加速推进,技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量,而“大数据”无疑是核心推动力。
????? 那么,什么是“大数据”呢?如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB来衡量。
?????? 大数据主要具有以下四个方面的典型特征,即大量(Volume)、多样(Varity)、高速(Velocity)和价值(Value),即所谓的“4V”。
??? 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流也越来越密切,生活也越来越便捷,然而大数据就是这个高科技时代的产物。阿里巴巴的创办人马云曾经说过,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,这显示出大数据对于阿里巴巴集团来说是举足轻重的
Hadoop 2.0.0-alpha版本发布、
Impala加入Hadoop生态圈、
Hadoop2.0.0版本发布
2014-2017?
Spark成为Apache顶级项目
Hadoop3.0.0版本发布。
广义上:随着Hadoop的不断发展,Hadoop生态体系越来越完善,现如今已经发展成一个庞大的生态体系
是Google的Chubby一个开源的实现,是Hadoop和HBase的重要组件。
Hive基于Hadoop的数据仓库:Hive是基于Hadoop的一个分布式数据仓库工具,可以将结构化的数据文件映射为一张数据库表,将SQL语句转换为MapReduce任务进行运行。
Flume日志收集工具:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
1.单机模式
单机模式是Hadoop的默认模式,安装时不需要修改配置文件。这时Hadoop运行在一
台计算机上,不需要启动 HDFS和YARN,运行时也不用Hadoop的守护进程。MapReduce相比运行处理数据时只有一个Java进程,MapO和Reduce()任务作为同一个进程的不同部分来
得处理速 执行,同时MapReduce使用本地文件系统进行数据的输入输出,而不是分布式文件系统。这种模式主要用于对MapReduce程序的逻辑进行调试,确保程序的正确。
2.伪分布式模式?? ?
Hadoop安装在一台计算机上,安装时需要修改相应的配置文件,用一台计算机模拟多台主机的集群。Hadoop运行时需要启动 HDFS和 YARN,NameNode、DataNode、 ResourceManager、NodeManager这些守护进程都在同一台机器上运行,是相互独立的Java进程。在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由MRAppMaster来管理的独立进程。伪分布式模式类似于完全分布式模式,因此,这种模式常用来进行学习和开发测试Hadoop程序的执行是否正确提供。
?3.完全分布式模式?? ?
在多台计算机上安装JDK和Hadoop,组成相互连通的集群,安装时需要修改相应的配置文件。运行时,Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。