导航：首页 > 互联网科技 >

Spark+Zookeeper怎么搭建高可用Spark集群

发表于：2025-01-24 作者：千家信息网编辑

千家信息网最后更新 2025年01月24日，这篇文章给大家介绍Spark+Zookeeper怎么搭建高可用Spark集群，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。Spark三种分布式部署方式比较目前Apache Spa

千家信息网最后更新 2025年01月24日Spark+Zookeeper怎么搭建高可用Spark集群

这篇文章给大家介绍Spark+Zookeeper怎么搭建高可用Spark集群，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

Spark三种分布式部署方式比较

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，详情参考。

Spark standalone模式分布式部署

环境介绍

主机名	应用
tvm11	zookeeper
tvm12	zookeeper
tvm13	zookeeper、spark（master）、spark（slave）、Scala
tvm14	spark（backup）、spark（slave）、Scala
tvm15	spark（slave）、Scala

说明

依赖scala：
Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0. Support for Scala 2.10 was removed as of 2.3.0. Support for Scala 2.11 is deprecated as of Spark 2.4.1 and will be removed in Spark 3.0.
zookeeper： Master结点存在单点故障，所以要借助zookeeper，至少启动两台Master结点来实现高可用，配置方案比较简单。

安装scala

由上面的说明可知，spark对scala版本依赖较为严格，spark-2.4.5依赖scala-2.12.x，所以首先要安装scala-2.12.x，在此选用scala-2.12.10。使用二进制安装：

下载安装包
解压即用。

$ wget https://downloads.lightbend.com/scala/2.12.10/scala-2.12.10.tgz$ tar zxvf scala-2.12.10.tgz -C /path/to/scala_install_dir

如果系统环境也要使用相同版本的scala，可以将其加入到用户环境变量(.bashrc或.bash_profile)。

安装spark

打通三台spark机器的work用户ssh通道；
现在安装包到master机器：tvm13；
下载地址
注意提示信息，及Hadoop版本（与已有环境匹配，如果不匹配则选非预编译的版本自己编译）。

配置spark

spark服务配置文件主要有两个：spark-env.sh和slaves。

spark-evn.sh：配置spark运行相关环境变量
slaves：指定worker服务器

配置spark-env.sh：cp spark-env.sh.template spark-env.sh

export JAVA_HOME=/data/template/j/java/jdk1.8.0_201export SCALA_HOME=/data/template/s/scala/scala-2.12.10export SPARK_WORKER_MEMORY=2048mexport SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=2export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=tvm11:2181,tvm12:2181,tvm13:2181 -Dspark.deploy.zookeeper.dir=/data/template/s/spark"# 关于 SPARK_DAEMON_JAVA_OPTS 参数含义：        # -Dspark.deploy.recoverMode=ZOOKEEPER #代表发生故障使用zookeeper服务        # -Dspark.depoly.zookeeper.url=master.hadoop,slave1.hadoop,slave1.hadoop #主机名的名字        # -Dspark.deploy.zookeeper.dir=/spark #spark要在zookeeper上写数据时的保存目录# 其他参数含义：https://blog.csdn.net/u010199356/article/details/89056304

配置slaves：cp slaves.template slaves

# A Spark Worker will be started on each of the machines listed below.tvm13tvm14tvm15

配置 spark-default.sh ，主要用于spark执行任务（可以命令行动态指定）：

# http://spark.apache.org/docs/latest/configuration.html#configuring-logging# spark-defaults.shspark.app.name                                YunTuSparkspark.driver.cores                            2spark.driver.memory                           2gspark.master                                  spark://tvm13:7077,tvm14:7077spark.eventLog.enabled                        truespark.eventLog.dir                            hdfs://cluster01/tmp/event/logs spark.serializer                              org.apache.spark.serializer.KryoSerializerspark.serializer.objectStreamReset            100spark.executor.logs.rolling.time.interval     dailyspark.executor.logs.rolling.maxRetainedFiles  30spark.ui.enabled                              truespark.ui.killEnabled                          truespark.ui.liveUpdate.period                    100msspark.ui.liveUpdate.minFlushPeriod            3sspark.ui.port                                 4040spark.history.ui.port                         18080spark.ui.retainedJobs                         100spark.ui.retainedStages                       100spark.ui.retainedTasks                        1000spark.ui.showConsoleProgress                  truespark.worker.ui.retainedExecutors             100spark.worker.ui.retainedDrivers               100spark.sql.ui.retainedExecutions               100spark.streaming.ui.retainedBatches            100spark.ui.retainedDeadExecutors                100# spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

hdfs资源准备

因为 spark.eventLog.dir 指定为hdfs存储，所以需要在hdfs预先创建相应的目录文件：

hdfs dfs -mkdir -p hdfs://cluster01/tmp/event/logs

配置系统环境变量

编辑 ~/.bashrc ：

export SPARK_HOME=/data/template/s/spark/spark-2.4.5-bin-hadoop2.7export PATH=$SPARK_HOME/bin/:$PATH

分发

以上配置完成后，将 /path/to/spark-2.4.5-bin-hadoop2.7 分发至各个slave节点，并配置各个节点的环境变量。

启动

先在master节点启动所有服务：./sbin/start-all.sh
然后在backup节点单独启动master服务：./sbin/start-master.sh

查看状态

启动完成后到web去查看：

master（8081端口）：Status: ALIVE
backup（8080端口）：Status: STANDBY

完成！

关于Spark+Zookeeper怎么搭建高可用Spark集群就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

很赞哦！

配置环境服务变量版本节点分布式目录集群建高主机内容参数含义故障文件方式更多机器用户数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全怎么查服务器所剩端口计算机编程与网络技术专业郑州软件开发打杂网络安全无小事活动总结 plc软件开发公司 3a认证服务器厂家服务器存储量最大多少数据库如何导出数据和结构网赢网络技术有限责任公司 tidb数据库产品白皮书 qq数据库查询十一期间网络安全总结计算机网络技术要学ps吗苏州采购管理软件开发平台安川服务器报AL019 绍兴控制系统软件开发有网络但是游戏就是服务器繁忙郴州市app软件开发培训哪家好根据表格设计数据库 java 跨数据库查询中远网络技术数据库原理与sql课后答案服务器集群管理怎么管理家里组装一台服务器数据库同时查询2张表的列抖音服务器繁忙是什么意思 linux服务器上传jar包中学和网络安全教育教案服务器能开机但容易重启珠海时序数据库

千家信息网