导航：首页 > 互联网科技 >

Spark on Yarn 安装配置

发表于：2025-02-01 作者：千家信息网编辑

千家信息网最后更新 2025年02月01日，1、说明这篇文章是在xxx基础上进行部署的，需要hadoop的相关配置和依赖等等，Spark on Yarn的模式，Spark安装配置好即可，在Yarn集群的所有节点安装并同步配置，在无需启动服务，没

千家信息网最后更新 2025年02月01日Spark on Yarn 安装配置

1、说明

这篇文章是在xxx基础上进行部署的，需要hadoop的相关配置和依赖等等，Spark on Yarn的模式，Spark安装配置好即可，在Yarn集群的所有节点安装并同步配置，在无需启动服务，没有master、slave之分，Spark提交任务给Yarn，由ResourceManager做任务调度。

2、安装

yum -y install spark-core spark-netlib spark-python

3、配置

vim /etc/spark/conf/spark-defaults.confspark.eventLog.enabled  falsespark.executor.extraJavaOptions  -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:MaxHeapFreeRatio=70 -XX:+CMSClassUnloadingEnabledspark.driver.extraJavaOptions    -Dspark.driver.log.level=INFO -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:MaxHeapFreeRatio=70 -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=512Mspark.master         yarn       ##指定spark的运行模式

PS：关于spark-env.sh的配置，因为我的hadoop集群是通过yum安装的，估使用默认配置就可以找到hadoop的相关配置和依赖，如果hadoop集群是二进制包安装需要修改相应的路径

4、测试

a、通过spark-shell 测试

[root@ip-10-10-103-144 conf]# cat test.txt 1122334455[root@ip-10-10-103-144 conf]# hadoop fs -put   test.txt  /tmp/Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0[roo[root@ip-10-10-103-246 conf]# spark-shell Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/lib/zookeeper/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/usr/lib/flume-ng/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/usr/lib/parquet/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/usr/lib/avro/avro-tools-1.7.6-cdh6.11.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]Welcome to      ____              __     / __/__  ___ _____/ /__    _\ \/ _ \/ _ `/ __/  '_/   /___/ .__/\_,_/_/ /_/\_\   version 1.6.0      /_/Using Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_121)Type in expressions to have them evaluated.Type :help for more information.Spark context available as sc (master = yarn-client, app id = application_1494472050574_0009).SQL context available as sqlContext.scala> val file=sc.textFile("hdfs://mycluster:8020/tmp/test.txt")file: org.apache.spark.rdd.RDD[String] = hdfs://mycluster:8020/tmp/test.txt MapPartitionsRDD[1] at textFile at :27scala> val count=file.flatMap(line=>line.split(" ")).map(test=>(test,1)).reduceByKey(_+_)count: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at :29scala> count.collect()res0: Array[(String, Int)] = Array((33,1), (55,1), (22,1), (44,1), (11,1))      scala>

b、通过run-example测试

[root@ip-10-10-103-246 conf]#  /usr/lib/spark/bin/run-example SparkPi 2>&1 | grep "Pi is roughly"Pi is roughly 3.1432557162785812

5、遇到的问题

执行spark-shell计算报错如下：

scala> val count=file.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)17/05/11 21:06:28 ERROR lzo.GPLNativeCodeLoader: Could not load native gpl libraryjava.lang.UnsatisfiedLinkError: no gplcompression in java.library.path        at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1867)        at java.lang.Runtime.loadLibrary0(Runtime.java:870)        at java.lang.System.loadLibrary(System.java:1122)        at com.hadoop.compression.lzo.GPLNativeCodeLoader.(GPLNativeCodeLoader.java:32)        at com.hadoop.compression.lzo.LzoCodec.(LzoCodec.java:71)        at java.lang.Class.forName0(Native Method)        at java.lang.Class.forName(Class.java:348)        at $line20.$read.(:48)        at $line20.$read$.(:52)        at $line20.$read$.()        at $line20.$eval$.(:7)        at $line20.$eval$.()        at $line20.$eval.$print()        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)        at java.lang.reflect.Method.invoke(Method.java:498)        at org.apache.spark.repl.SparkIMain$ReadEvalPrint.call(SparkIMain.scala:1045)        at org.apache.spark.repl.SparkIMain$Request.loadAndRun(SparkIMain.scala:1326)        at org.apache.spark.repl.SparkIMain.loadAndRunReq$1(SparkIMain.scala:821)        at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:852)        at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:800)        at org.apache.spark.repl.SparkILoop.reallyInterpret$1(SparkILoop.scala:857)        at org.apache.spark.repl.SparkILoop.interpretStartingWith(SparkILoop.scala:902)

解决方案：

在spark-env.sh添加

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/hadoop/lib/native/

让Spark能找到lzo的lib包即可。

很赞哦！

配置集群测试任务模式二进制基础方案是在篇文章节点解决方案路径问题同步服务调度运行数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全专科网络安全能学会吗数据库技术公司知名企业计算机网络技术师工程类吗默认无线网络安全吗湖北省网络安全大赛数据库连接串是什么单片机组态软件开发最新网络安全审查征求意见和田软件开发规范达梦数据库怎么改编码华东院软件开发招聘 wifi密码数据库下载网络安全硬件设备书籍为什么数据库不能用虚拟机快照湖州工业图控系统软件开发无锡小程序软件开发服务全民网络安全知识竞赛题目怎样共通数据库曙光服务器密码忘了怎么办手机软件开发平台曲靖软件开发专业软件开发报价一张报表旅游app软件开发澜仁网络技术服务有限公司大专学历学网络技术 qq邮箱测速更换服务器公安局进校宣传网络安全简报材料力学视频软件开发软件开发行业的市场行情数据库查找并修改数据库

千家信息网

千家信息网

Spark on Yarn 安装配置

Pandas中怎么对merge进行操作

DreamWeaver中css代码不换行显示的实现方法

相关文章