千家信息网

Spark1.6.1和Hadoop2.6.4完全分布式安装的示例分析

发表于:2025-02-07 作者:千家信息网编辑
千家信息网最后更新 2025年02月07日,这篇文章主要介绍Spark1.6.1和Hadoop2.6.4完全分布式安装的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!前期准备: 以下安装包均可在官网下载hadoo
千家信息网最后更新 2025年02月07日Spark1.6.1和Hadoop2.6.4完全分布式安装的示例分析

这篇文章主要介绍Spark1.6.1和Hadoop2.6.4完全分布式安装的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

前期准备: 以下安装包均可在官网下载

hadoop-2.6.4.tar.gz  jdk-7u71-linux-x64.tar.gz  scala-2.10.4.tgz  spark-1.6.1-bin-hadoop2.6.tgz

本人的硬件环境为:

master:虚拟内核8 内存16.0GB  slave1:虚拟内核4 内存10.0GB      slave2:虚拟内核4 内存10.0GB      slave3:虚拟内核4 内存10.0GB      slave4:虚拟内核4 内存10.0GB      

将5台机器分别命名为master、slave1、slave2、slave3、slave4:

在master这台电脑上sudo vim /etc/hostnamemaster

在将5台机器均配置相同hosts:

sudo vim /etc/hosts127.0.0.1 localhost127.0.1.1 master/slave1/...192.168.80.70 master192.168.80.71 slave1 192.168.80.72 slave2 192.168.80.73 slave3 192.168.80.74 slave4

配置好后,重启,之后可以在master上ping slave1

配置ssh:

所有节点,使用   ssh-keygen -t rsa    一路按回车就行了。①在master上将公钥放到authorized_keys里。命令:sudo cat id_rsa.pub >> authorized_keys②将master上的authorized_keys放到其他linux的~/.ssh目录下。命令:scp authorized_keys root@salve1:~/.ssh       ③修改authorized_keys权限,命令:chmod 644 authorized_keysssh localhost以及ssh master④测试是否成功ssh slave1 输入用户名密码,然后退出,再次ssh host2不用密码,直接进入系统。这就表示成功了。所有节点关闭防火墙 ufw disable

编辑配置文件:

vim /etc/profileexport JAVA_HOME=/usr/lib/jvm/jdk1.7.0_71export PATH=JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATHexport CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport SCALA_HOME=/opt/scala/scala-2.10.4export PATH=/opt/scala/scala-2.10.4/bin:$PATHexport PATH=$PATH:$JAVA_HOME/binexport HADOOP_HOME=/root/hadoop-2.6.4export HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_YARN_HOME=$HADOOP_HOMEexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOOME/sbin:$HADOOP_HOME/libexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport SPARK_HOME=/root/spark-1.6.1-bin-hadoop2.6export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbinsource /etc/profile
vim hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/jdk1.7.0_71export HADOOP_CONF_DIR=/root/hadoop-2.6.4/etc/hadoop/ source hadoop-env.sh
vim yarn-env.shexport JAVA_HOME=/usr/lib/jvm/jdk1.7.0_71source yarn-env.sh
vim spark-env.shexport SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=4export SPARK_WORKER_MEMORY=4gexport SPARK_WORKER_INSTANCES=2export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_71export SCALA_HOME=/opt/scala/scala-2.10.4export HADOOP_HOME=/root/hadoop-2.6.4source spark-env.sh

Spark和Hadoop均需要修改slaves

vim slavesslave1slave2slave3slave4

Hadoop相关配置:

vim core-site.xml hadoop.tmp.dir/root/hadoop-2.6.4/tmpfs.default.namehdfs://master:9000
vim hdfs-site.xml dfs.http.addressmaster:50070dfs.namenode.secondary.http-addressmaster:50090dfs.replication1
vim mapred-site.xmlmapred.job.trackermaster:9001 mapred.map.tasks20mapred.reduce.tasks4mapreduce.framework.nameyarnmapreduce.jobhistory.addressmaster:10020mapreduce.jobhistory.webapp.addressmaster:19888
vim yarn-site.xml yarn.resourcemanager.addressmaster:8032yarn.resourcemanager.scheduler.address master:8030 yarn.resourcemanager.webapp.address master:8088yarn.resourcemanager.resource-tracker.addressmaster:8031yarn.resourcemanager.admin.addressmaster:8033yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandler

配置完上述内容后,在master节点上将上述两个解压包分发到slave1~slave4节点上:

scp -r spark-1.6.1-bin-hadoop2.6 root@slave1:~/scp -r hadoop-2.6.4 root@slave1:~/

注意ssh要提前配置好,Hadoop运行测试这里不再赘述,注意 jps命令查看状态

启动测试Spark

./sbin/start-all.sh

测试Spark自带的例子

./bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi /root/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar

测试Spark shell

./bin/spark-shell --master spark://master:7077

以上是"Spark1.6.1和Hadoop2.6.4完全分布式安装的示例分析"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!

0