大数据技术之Hadoop简介与概述和安装后练习

发布时间:2024年01月09日

一、HADOOP简介

Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库,源自始于02年的Apache Nutch项目(一个开源的网络搜索引擎并且也是Lucene项目的一部分)。 在2004年,Nutch项目模仿GFS开发了自己的分布式文件系统NDFS,也就是HDFS的前身,04年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想,05年,Nutch开源实现了谷歌的MapReduce。到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop。
?Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
?Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
?Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce

二、Hadoop特点

Hadoop是对海量数据集进行分布式并行处理的高效、可靠、可伸缩的 软件框架,其特点如下:
?高可靠性:多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务
?高效性:成百上千台机器一起计算
?高扩展性:可以不断往集群中添加机器
?
文章来源:https://blog.csdn.net/weixin_63378697/article/details/135450604
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。