1)官网地址:http://spark.apache.org/
2)文档查看地址:https://spark.apache.org/docs/3.1.3/
3)下载地址:
https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/
注意:sc是SparkCore程序的入口;spark是SparkSQL程序入口;master = local[*]表示本地模式运行。
说明:本地模式下,默认的调度器为FIFO。
Standalone模式是Spark自带的资源调度引擎,构建一个由Master + Worker构成的Spark集群,Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群,不需要借助Hadoop的Yarn和Mesos等其他框架。
4. 启动spark集群
5. 测试
Spark客户端直接连接Yarn,不需要额外构建Spark集群。
3. 修改/opt/module/spark-yarn/conf/spark-env.sh,添加YARN_CONF_DIR配置,保证后续运行任务的路径都变成集群路径
4. 启动HDFS以及YARN集群
先启动zk,启动yarn,启动hdfs
5. 测试