千家信息网

linux系统怎么安装hadoop真分布式集群

发表于:2025-01-16 作者:千家信息网编辑
千家信息网最后更新 2025年01月16日,这篇"linux系统怎么安装hadoop真分布式集群"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一
千家信息网最后更新 2025年01月16日linux系统怎么安装hadoop真分布式集群

这篇"linux系统怎么安装hadoop真分布式集群"文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇"linux系统怎么安装hadoop真分布式集群"文章吧。

Hadoop真分布式完全集群安装,基于版本2.7.2安装,在两台Linux机器上面分别安装Hadoop的master和slave节点。

1.安装说明

不管NameNode还是DataNode节点,安装的用户名需要一致。
master和slave的区别,只是在于配置的hostname,
在config的slaves配置的hostname所代表的机器即为slave,
不使用主机名也可以,直接配置为IP即可。
在这种集群下面,需要在master节点创建namenode路径,
并且使用格式化命令hdfs namenode –format。
然后在slave节点创建datanode路径,注意目录的权限。

2.配置hosts

如果已经存在则不需要,每台机器进行相同的操作

10.43.156.193 zdh293 ywmaster/fish master10.43.156.194 zdh294 ywmaster/fish slave

3.创建用户

集群上面的用户名必须都是一样的,否则无法影响Hadoop集群启动,
在每台机器里面添加相同的用户,参考如下命令:

useradd ywmaster

4.安装JDK

此处安装的是jdk1.7

scp yuwen@10.43.156.193:/home/yuwen/backup/jdk-7u80-linux-x64.tar.gz .zdh223tar -zxvf jdk-7u80-linux-x64.tar.gz vi .bash_profile export JAVA_HOME=~/jdk1.7.0_80export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarsource .bash_profile

验证jdk

java -version

5.设置集群免密登陆

5.1.设置本地免密登陆

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

必须修改权限,否则无法免秘登陆

chmod 600 ~/.ssh/authorized_keys

验证免密登陆

ssh localhost

5.2.设置远程免密登陆

需要把本机的公钥放到对方的机器authorized_keys,才能免密登陆其他机器。
进入ywmaster的.ssh目录

scp ~/.ssh/authorized_keys ywmaster@10.43.156.194:~/.ssh/authorized_keys_from_zdh293

进入ywslave的.ssh目录,注意备份,否则下面步骤存在重复的ywmaster公钥。

cat authorized_keys_from_zdh293 >> authorized_keysssh zdh294

5.3.设置其他机器免密登陆

参考上面的步骤同理设置其他机器,配置后zdh293可以免密登陆。

scp ~/.ssh/authorized_keys ywmaster@10.43.156.193:~/.ssh/authorized_keys_from_zdh294

6.安装Hadoop

上传并解压hadoop文件

scp pub@10.43.156.193:/home/pub/hadoop/source/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz .zdh2234tar -zxvf hadoop-2.7.2.tar.gz

7.配置环境变量

export HADOOP_HOME=~/hadoop-2.7.2export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

配置别名,可以快速访问配置路径

alias conf='cd /home/ywmaster/hadoop-2.7.2/etc/hadoop'

8.检查和修改Hadoop配置文件

8.1 hadoop-env.sh

涉及环境变量:JAVA_HOMEHADOOP_HOMEHADOOP_CONF_DIR

8.2 yarn-env.sh

涉及环境变量:JAVA_HOMEHADOOP_YARN_USERHADOOP_YARN_HOME, YARN_CONF_DIR

8.3 slaves

这个文件里面保存所有slave节点,注释掉localhost,新增zdh294作为slave节点。

8.4 core-site.xml

fs.defaultFShdfs://10.43.156.193:29080fs.default.namehdfs://10.43.156.193:29080  io.file.buffer.size131072hadoop.tmp.dirfile:/home/ywmaster/tmp

8.5 hdfs-site.xml

dfs.namenode.rpc-address10.43.156.193:29080dfs.namenode.http-address10.43.156.193:20070  dfs.namenode.secondary.http-address10.43.156.193:29001dfs.namenode.name.dirfile:/home/ywmaster/dfs/namedfs.datanode.data.dirfile:/home/ywmaster/dfs/datadfs.replication1dfs.webhdfs.enabledtrue

8.6 mapred-site.xml

mapreduce.framework.nameyarnmapreduce.shuffle.port23562  mapreduce.jobhistory.address10.43.156.193:20020mapreduce.jobhistory.webapp.address10.43.156.193:29888

8.7:yarn-site.xml

yarn.nodemanager.aux-servicesmapreduce_shuffle                                                            yarn.nodemanager.aux-services.mapreduce.shuffle.class  TODODELETEorg.apache.hadoop.mapred.ShuffleHandler#mapreduce.shuffle已经过时,改为mapreduce_shuffleyarn.nodemanager.aux-services.mapreduce_shuffle.classorg.apache.hadoop.mapred.ShuffleHandleryarn.resourcemanager.address10.43.156.193:28032yarn.resourcemanager.scheduler.address10.43.156.193:28030yarn.resourcemanager.resource-tracker.address10.43.156.193:28031yarn.resourcemanager.admin.address10.43.156.193:28033yarn.resourcemanager.webapp.address10.43.156.193:28088

8.8 获取Hadoop的默认配置文件

选择相应版本的hadoop,下载解压后,搜索*.xml,
找到core-default.xml,hdfs-default.xml,mapred-default.xml,
这些就是默认配置,可以参考这些配置的描述说明,
在这些默认配置上进行修改,配置自己的Hadoop集群。

find . -name *-default.xml./hadoop-2.7.1/share/doc/hadoop/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml./hadoop-2.7.1/share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.xml./hadoop-2.7.1/share/doc/hadoop/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml./hadoop-2.7.1/share/doc/hadoop/hadoop-yarn/hadoop-yarn-common/yarn-default.xml./hadoop-2.7.1/share/hadoop/httpfs/tomcat/webapps/webhdfs/WEB-INF/classes/httpfs-default.xml

9.把配置好的Hadoop复制到其他节点

scp -r ~/hadoop-2.7.2 ywmaster@10.43.156.194:~/

或者只拷贝配置文件,可以提高拷贝效率:

scp -r ~/hadoop-2.7.2/etc/hadoop ywmaster@10.43.156.194:~/hadoop-2.7.2/etc

创建好name和data数据目录

mkdir -p ./dfs/namemkdir -p ./dfs/data

10.启动验证Hadoop

格式化namenode:

hdfs namenode -format

出现如下结果则表示成功:

16/09/13 23:57:16 INFO common.Storage: Storage directory /home/ywmaster/dfs/name has been successfully formatted.

启动hdfs

start-dfs.sh

启动yarn:

start-yarn.sh

注意修改了配置之后一定要重新复制到其他节点,否则启动会有问题。

11.检查启动结果

NameNode下执行jps应该包含如下进程:

15951 ResourceManager13294 SecondaryNameNode12531 NameNode16228 Jps

DataNode下执行jps应该包含如下进程:

3713 NodeManager1329 DataNode3907 Jps

查看HDFS服务:

http://10.43.156.193:20070

查看SecondaryNameNode:

http://10.43.156.193:29001/

具体IP和Port参考hdfs-site.xml:

dfs.namenode.http-address The address and the base port where the dfs namenode web ui will listen on.

查看RM:

http://10.43.156.193:28088

具体IP和Port参考yarn-site.xml:

yarn.resourcemanager.webapp.address10.43.156.193:28088

12.其他参考

停止命令:

stop-yarn.shstop-dfs.sh

执行命令验证:

hadoop fs -ls /usrhadoop fs -mkdir usr/yuwenhadoop fs -copyFromLocal wordcount /userhadoop fs -rm -r /user/wordresulthadoop jar ~/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/wordcount.txt /user/wordresult_001hadoop fs -text /user/wordresult_001/part-r-00000

以上就是关于"linux系统怎么安装hadoop真分布式集群"这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注行业资讯频道。

0