导航：首页 > 互联网科技 >

Spark 环境部署

发表于：2025-02-02 作者：千家信息网编辑

千家信息网最后更新 2025年02月02日，==> Spark 集群体系结构---> ==> Spark安装与部署Spark 的安装部署有四种模式：Standalone, YARN, Mesos, Amazon EC2, 这里主要讲解Stand

千家信息网最后更新 2025年02月02日Spark 环境部署

==> Spark 集群体系结构

--->

==> Spark安装与部署

Spark 的安装部署有四种模式：Standalone, YARN, Mesos, Amazon EC2, 这里主要讲解Standalone 方式

---> 环境部署准备工作：（此处不作详细讲解）

---- 四台 Linux 主机（虚拟机）

---- 修改主机名

---- 免密码登陆

---- 安装 JDK 环境

---> Spark Standalone 伪分布的部署

wget  tar zxf spark-2.2.1-bin-hadoop2.7.tgz -C /appcd /app/spark-2.2.1-bin-hadoop2.7/confcp spark-env.sh.template spark-env.shcp slaves.template slaves-----------------------------------------------------------------------------------vim spark-env.sh    export JAVA_HOME=/app/java/jdk1.8.0_102    export SPARK_MASTER_HOST=bigdata0    export SPARK_MASTER_PORT=7077-----------------------------------------------------------------------------------vim slaves    bigdata0

---> Spark Standalone 全分布的部署

---- 环境架构：

Master	bigdata1
Worker	bigdata2	bigdata3	bigdata4

---- 主节点部署：

wget http://mirrors.hust.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz tar zxf spark-2.2.1-bin-hadoop2.7.tgz -C /appcd /app/spark-2.2.1-bin-hadoop2.7/confcp spark-env.sh.template spark-env.shcp slaves.template slaves-----------------------------------------------------------------------------------vim spark-env.sh    export JAVA_HOME=/app/java/jdk1.8.0_102    export SPARK_MASTER_HOST=bigdata0    export SPARK_MASTER_PORT=7077-----------------------------------------------------------------------------------vim slaves    bigdata2    bigdata3    bigdata4

---- 将主节点的安装目录 cp 到其它从节点上即可

scp -r spark-2.2.1-bin-hadoop2.7/ bigdata2:/app &scp -r spark-2.2.1-bin-hadoop2.7/ bigdata3:/app &scp -r spark-2.2.1-bin-hadoop2.7/ bigdata4:/app &

---- 启动

start-all.sh

==> Spark HA 的实现

Spark HA 有两种实现方式：

---> 基于文件系统的单点故障恢复：只有一个主节点、只能用于开发测试

---- 特点：把 Spark 的运行信息入到一个本地的恢复目录，如果Master死掉，恢复 master 的时候从恢复目录上读取之前的信息

---- 配置：在 standalone 的基础上修改 spark-env.sh 文件，文件内容为：

vim  spark-env.sh    export JAVA_HOME=/app/java/jdk1.8.0_102    export SPARK_MASTER_HOST=bigdata0    export SPARK_MASTER_PORT=7077    export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/data/spark_recovery"

---- 参数讲解：

--- spark.deploy.recoveryMode

=> 此参数默认值为：None ，

=> 基于文件系统的单点故障修复: FILESYSTEM

=> 基于 Zookeeper 实现 Standby 的 Master: ZOOKEEPER

--- spark.deploy.recoveryDirectory 指定恢复目录

---- 测试：bin/spark-shell --master spark://bigdata1:7077

---> 基于 ZooKeeper 实现 Standby 的 Master

---- 特点：

Zookeeper 提供了一个 Leader Election 机制，利用这个机制可以保证虽然集群存在多个 Master，但是只有一个是Active 的，其他的都是 Standby ，当 Active 的 Master 出现故障时，另外的一个 Standby Master 会被选举出来。由于集群的信息包括 Worker, Driver 和 Application 的信息都已经持久化到 Zookeeper ，因此在切换的过程中只会影响新的 Job 的提交，对于正在进行 Job 没有任何的影响

---- 配置：在 standalone 的基础上修改 spark-env.sh 文件，文件内空为：

vim  spark-env.sh    export JAVA_HOME=/app/java/jdk1.8.0_102    export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata2:2181,bigdata3:2181,bigdata4:2181 -Dspark.deploy.zookeeper.dir=/spark"

---- 测试：

bigdata1: sbin/start-all.shbigdata2: sbin/start-master.sh

很赞哦！

文件信息目录节点环境故障集群测试主机参数只有基础方式机制特点系统单点影响配置体系数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全上海获客软件开发用什么软件开发网站好数据库怎么查表中的人菲律宾云服务器亚太网络安全会议 linux服务器定时重启关系数据库逻辑数据模型学不懂网络安全还要坚持吗 win10数据库损坏怎么修复大学生知识网络安全临沧创建网站java软件开发铁甲雄兵怎么换登录服务器网络安全谜语软件开发费税点任务管理器找不到服务器温州凤存网络技术有限公司 wifi节点数据库数据库数据恢复哪种快 perl 生物数据库平谷区综合网络技术服务质量保障网宿科技工业互联网沙龙科沃斯软件开发薪资软件开发合同的法律要求数据库用界面操作入库添加表格现实数据库java 网络技术多冗余快照数据库对象定义被修改嘟嘟视界软件开发反射获取数据库实体类网络安全防护措施继续教育

千家信息网

千家信息网

Spark 环境部署

MicroPython如何显示当前经纬度

Docker容器内存监控怎么实现

相关文章