Linux系统如何安装Spark
小编给大家分享一下Linux系统如何安装Spark,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
Spark简介:
用最简单的语言去描述Spark的话,听起来或许有点百度百科:Spark是一个通用的分布式数据处理引擎。
上面这句话听起来或许很抽象,我们一个词一个词的来解释通用:通用指的是Spark可以做很多事情。刚刚我们提到过的,包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等等等等都是Spark可以做到的。甚至可以说,你需要用数据实现的任何事情,你都可以用Spark试试看。分布式:指的是Spark处理数据的能力是建立在许多机器上的,是可以和分布式的存储系统对接的,是可以做横向扩展的(简单点说就是电脑越多,能力越大)引擎:所谓引擎,说的就是Spark自己不会存储数据,它就像实体的机械引擎一样,会将燃料(对Spark来说是数据)转化成使用者需要的那种形式——例如驱动汽车,再例如得到一个需要的目标结论。但无论如何,巧妇难为无米之炊,没数据是万万不行的。
Linux系统安装Spark具体步骤:
安装约定
软件上传目录:/opt/soft
软件安装目录:/opt
环境变量配置文件:/etc/profile.d/hadoop-etc.sh
环境依赖:需安装zookeeper、Scala
1) 解压hadoop安装软件
tar -zxvf /opt/soft/spark-2.0.2-bin-hadoop2.7.tgz -C /opt/
2) 重命名
mv /opt/spark-2.0.2-bin-hadoop2.7 /opt/spark
3) 复制并重命名配置文件
cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh
4) 修改spark-env.sh配置文件
vi spark-env.sh
export JAVA_HOME=/opt/jdk
export SCALA_HOME=/opt/scala
export SPARK_MASTER_IP=lky01
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
5) 复制并重命名slaves.template文件
cp slaves.template slaves
6) 修改slaves配置文件
添加两行记录(注销掉localhost)
lky02
lky03
7)将mysql驱动架包mysql-connector-java-5.1.39-bin.jar复制到/opt/spark/jars目录下
8)拷贝spark至其他机器
scp -r /opt/spark root@lky02:/opt
scp -r /opt/spark root@lky03:/opt
9)拷贝环境变量至其他机器
scp /etc/profile.d/hadoop-etc.sh root@lxq2:/etc/profile.d/
scp /etc/profile.d/hadoop-etc.sh root@lxq03:/etc/profile.d/
10)让配置生效: source /etc/profile.d/hadoop-etc.sh
修改启动项
为了避免和hadoop中的start/stop-all.sh脚本发生冲突,将spark/sbin/start/stop-all.sh重命名
cd /opt/spark/sbin/
mv start-all.sh start-spark-all.sh
mv stop-all.sh stop-spark-all.sh
11)启动spark
sbin/start-spark-all.sh
12)访问验证
访问spark web服务:http://ip:8080
以上是"Linux系统如何安装Spark"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!