hadoop安装教程可以看我这篇文章===> 🍅hadoop通过docker安装
分布式存储:主从架构——架构角色
HDFS文件系统基本信息
操作命令添加协议头就会分别是对对应的系统执行,如果不带是会按照
操作命令
不同版本命令开头
# 老版本
hadoop fs
# 新版本
hdfs dfs
命令使用
# hdfs dfs -put linux路径 HDFS文件路径
hdfs dfs -put ./test2.test /
# hdfs dfs -get HDFS文件路径 linux路径
hdfs dfs -get /.test.txt /
#拷贝文件
hdfs dfs -cp 源路径 粘贴路径
#移动文件
hdfs dfs -mv 源路径 粘贴路径
追加数据到HDFS文件
HDFS只能追加和删除,不能修改
htfs -dfs -appendToFile
#查看文件内容
htfs -dfs -cat 文件
#删除文件和文件夹(删除文件不用加-r,删除文件夹需要加-r)
htfs dfs -rm -r 文件路径
删除文件看是否需要添加回收站
html查看文件
产品插件用于使用:Big Data Tools
配置插件
hdfs存储的管理单位是叫 block块
通过分布式的方式进行存储5,为了避免block块丢失,一般会进行冗余备份(通过添加副本块的方式备份),避免文件丢失
在进行读写时,会优先读写到网络距离最近的那台dataNode给客户端进行读写,实现读写的最优解。
数据读取流程
采用的是分散—>汇总模式进行分布式计算
提供了2个编程接口
将资源统一管控进行分配可以提供资源利用率
MapReduce和YARN的关系
YARN采用的也是主从架构
核心角色
辅助角色
YARN集群启动和停止命令(mapReduce无需启动任何进程)
#一键启动:
$HADOOP_HOME/sbin/start-yarn.sh
#一键关闭
$HADOOP_HOME/sbin/stop-yarn.sh
#历史服务器启动和停止
mapred --daemon start|stop historyserver
查看YARN的web页面通过8088端口