导航：首页 > 互联网科技 >

Hadoop中Spark怎么用

发表于：2024-11-14 作者：千家信息网编辑

千家信息网最后更新 2024年11月14日，这篇文章给大家分享的是有关Hadoop中Spark怎么用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。一、Spark 是什么Spark是UC Berkeley AMP la

千家信息网最后更新 2024年11月14日Hadoop中Spark怎么用

这篇文章给大家分享的是有关Hadoop中Spark怎么用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

一、Spark 是什么

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有hadoop MapReduce所具有的优点，但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算--Spark的Job处理的中间输出结果可以保存在内存中，从而不再需要读写HDFS，除此之外，一个MapReduce 在计算过程中只有map 和reduce 两个阶段，处理之后就结束了，而在Spark的计算模型中，可以分为n阶段，因为它内存迭代式的，我们在处理完一个阶段以后，可以继续往下处理很多个阶段，而不只是两个阶段。

因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。其不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，包括交互式查询和流处理。在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。即使在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。

二、Scala的安装(所有节点)

下载安装包

wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz

解压安装包

tar xf scala-2.11.7.tgz mv scala-2.11.7 /usr/local/scala

配置scala环境变量/etc/profile.d/scala.sh

# Scala ENVexport SCALA_HOME=/usr/local/scalaexport PATH=$PATH:$SCALA_HOME/bin

使scala环境变量生效

source /etc/profile.d/scala.sh

三、Spark 安装(所有节点)

1、下载安装

# 下载安装包wget https://mirrors.aliyun.com/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz# 解压安装包tar xf spark-2.3.1-bin-hadoop2.7.tgz mv spark-2.3.1-bin-hadoop2.7 /usr/local/spark

2、配置 Spark 环境变量

编辑文件/etc/profile.d/spark.sh，修改为如下：

# Spark ENVexport SPARK_HOME=/usr/local/sparkexport PATH=$PATH:$SPARK_HOME/bin:

生效环境变量

source /etc/profile.d/spark.sh

四、Spark 配置(namenode01)

1、配置 spark-env.sh

编辑文件/usr/local/spark/conf/spark-env.sh，修改为如下内容：

export JAVA_HOME=/usr/java/defaultexport SCALA_HOME=/usr/local/scalaexport HADOOP_HOME=/usr/local/hadoopexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexport SPARK_MASTER_IP=namenode01export SPARK_WORKER_MEMORY=4gexport SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=1

2、配置 slaves

编辑文件/usr/local/spark/conf/slaves，修改为如下内容：

datanode01datanode02datanode03

3、配置文件同步到其他节点

scp /usr/local/spark/conf/* datanode01:/usr/local/spark/conf/scp /usr/local/spark/conf/* datanode02:/usr/local/spark/conf/scp /usr/local/spark/conf/* datanode03:/usr/local/spark/conf/

4、启动 Spark 集群

Spark服务只使用hadoop的hdfs集群。

/usr/local/spark/sbin/start-all.sh

五、检查

1、JPS

[root@namenode01 ~]# jps14512 NameNode23057 RunJar14786 ResourceManager30355 Jps15894 HMaster30234 Master[root@datanode01 ~]# jps3509 DataNode3621 NodeManager1097 QuorumPeerMain9930 RunJar15514 Worker15581 Jps3935 HRegionServer[root@datanode02 ~]# jps3747 HRegionServer14153 Worker3322 DataNode3434 NodeManager1101 QuorumPeerMain14221 Jps[root@datanode03 ~]# jps3922 DataNode4034 NodeManager19186 Worker19255 Jps1102 QuorumPeerMain4302 HRegionServer