spark集群运行时需要使用hdfs存储日志 9870端口
/export/server/hadoop/sbin/start-dfs.sh
# 手动退出安全模式
hdfs dfsadmin -safemode forceExit
使用yarn进行资源调度服务 8088端口
/export/server/hadoop/sbin/start-yarn.sh
执行到这里我问一个问题
为什么不直接全部启动?
/export/server/hadoop/sbin/start-all.sh
启动standalone进行资源调度 spark使用自带资源调度服务 8080端口
/export/server/spark/sbin/start-all.sh /export/server/spark/sbin/stop-all.sh
注意这里是all.sh是把所有的都启动了。
问:
如何只启动spark计算引擎,而不启动spark自带的资源调度服务。
# 总结成两句话:
1、anaconda集成了python解释器和各种数据开发模块,服务器可以直接安装anaconda工具
2、anaconda引入虚拟环境,正常情况下一台电脑只能装一个python3的版本,不管你放C盘还是移动盘,但是anaconda虚拟环境可以让你一台电脑装python38,python39
# 操作
1、查看所有虚拟环境
2、创建新的虚拟环境
3、删除虚拟环境
4、进入虚拟环境
5、退出虚拟环境
查看当前有多少虚拟环境
conda info --envs
创建新的虚拟环境
conda create -n shaonianlu python=3.9
进入某个虚拟环境
conda activate shaonianlu
推出当前虚拟环境
conda deactivate
删除
conda remove -n shaonianlu --all
ssh连接远程服务器,用以操作服务器
jdbc协议远程连接服务器的数据库
sftp服务,将本地目录和远程服务器上的目录做映射,将本地代码文件同步到远程服务器上
连接远程的python环境,可以使用远程python环境运行代码
这个图要能看懂
无法运行或者找不到,这俩种遇到任何一种都删除配置
删什么东西?
- sftp的remote host先删除掉
- 再删除远程python环境
(base)node1: 直接
pyspark
进入的是本地模式 在node1上输入就使用node1的资源,在node2上输入就使用node2的资源[代码测试用]
(base)node1: pyspark --master spark://node1:7077standlaone
(base)node1: pyspark --master spark://node1:7077,node2:7077 但是你前提得开启zk服务,并在另一台服务器开启备用服务 高可用模式
(base)node1: pyspark --master yarn
from pyspark import SparkContext
# 没有指定任何参数,使用本地local模式
sc = SparkContext()
# master参数可以指定调用的资源服务
# 使用standalone资源调度
sc = SparkContext(master='spark://node1:7077')
# 使用standalone高可用资源调度
sc = SparkContext(master='spark://node1:7077,node2:7077')
# 使用yarn资源调度
sc = SparkContext(master='yarn')
vim /etc/ssh/sshd_config
【哪台连接的慢,你就修改哪台的】
systemctl restart sshd
Proceed:继续进行
Remote:远程 -->remote host :远程主机