Apache Hadoop 2.8 完全分布式集群搭建过程是怎样的
这期内容当中小编将会给大家带来有关Apache Hadoop 2.8 完全分布式集群搭建过程是怎样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
最近在自己的笔记本电脑上搭建了Apache Hadoop分布式集群,采用了最新的稳定版本2.8,并配置了NameNode、ResourceManager的HA高可用,方便日常对Hadoop的研究与测试工作。详细的搭建过程如下:
1、安装docker,创建docker容器,用于搭建hadoop节点
docker真是个好东西啊,当要在自己的笔记本上搭建分布式集群时,由于CPU、内存、磁盘有限,无法在VMware上虚拟出太多节点,这时使用docker创建几个容器,就能轻松搭建一个分布式集群了。
(1)先在VMware上安装centos6.9,作为宿主机,然后安装docker,具体过程见我另一篇博文:Centos6.9安装docker
(2)然后再docker hub中拉取centos镜像,用于创建分布式集群的节点,推荐在docker中安装centos6(docker中的centos7有坑,被坑过,呜呜),具体过程见我另一篇博文:docker中安装centos6
(3)centos镜像准备好后,就开始创建docker容器,用于搭建hadoop的节点
# 创建4个节点,用于搭建hadoopdocker run -it --name hadoopcentos1 centos:6 /bin/bashdocker run -it --name hadoopcentos2 centos:6 /bin/bashdocker run -it --name hadoopcentos3 centos:6 /bin/bashdocker run -it --name hadoopcentos4 centos:6 /bin/bash# 启动容器docker start hadoopcentos1docker start hadoopcentos2docker start hadoopcentos3docker start hadoopcentos4
注意:这时要把宿主机的防火墙关掉、selinux设为不可用
# 关掉防火墙chkconfig iptables offservice iptables stop# 设置 selinux 为不可用,在config文件中修改SELINUX配置项vi /etc/selinux/configSELINUX=disabled
2、规划hadoop集群
本次共创建了4个hadoop节点,并实现NameNode HA、ResourceManager HA,节点规划如下
hadoop集群节点规划
Docker 容器 | ip地址 | 主机名 | 节点进程 |
---|---|---|---|
hadoopcentos1 | 172.17.0.1 | hd1 | NameNode(active)、JournalNode、Zookeeper、ZKFC |
hadoopcentos2 | 172.17.0.2 | hd2 | NameNode(standby)、JournalNode、Zookeeper、ZKFC、NodeManager、DataNode |
hadoopcentos3 | 172.17.0.3 | hd3 | ResourceManager(active)、JournalNode、Zookeeper、NodeManager、DataNode |
hadoopcentos4 | 172.17.0.4 | hd4 | ResourceManager(standby)、NodeManager、DataNode |
NameNode HA部署在hd1、hd2,ResourceManager HA部署在hd3、hd4,其它进程见上表
3、配置Docker容器基本环境
由于在Docker中拉取的centos 6镜像是精简版本,很多指令没有,因此,先安装一些软件,配置基本环境
进入Docker容器,例如hadoopcentos1
docker exec -it hadoopcentos1 bin/bash
更换yum国内源(每个节点)
curl http://mirrors.aliyun.com/repo/Centos-6.repo > /etc/yum.repos.d/CentOS-Base-6-aliyun.repomv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bakyum clean allyum makecache
安装相关的软件(每个节点)
yum install -y net-tools which openssh-clients openssh-server iproute.x86_64
编辑sshd_config文件,将其中的UsePAM改成no
vi /etc/ssh/sshd_config
启动ssh(每个节点)
chkconfig sshd onservice sshd start
创建用于安装apache hadoop的组、账号
groupadd ahadoopuseradd -m -g ahadoop ahadoop
配置主机名映射表
vi /etc/hosts172.17.0.1 hd1.hdsite hd1172.17.0.2 hd2.hdsite hd2172.17.0.3 hd3.hdsite hd3172.17.0.4 hd4.hdsite hd4172.17.0.1 31d48048cb1e172.17.0.2 1620d6ed305d172.17.0.3 ed3702f8924e172.17.0.4 ee8319514df6
其中,最后4行的随机字符串,就是docker容器自动生成的主机名了,每生成一个docker容器就会自动生成一个主机名
4、安装 JDK
从oracle的官网上面下载 JDK 1.8 Linux x64
创建java目录,并解压安装(使用root用户,方便以后别的程序也可以用)
mkdir /usr/javacd /usr/javatar -zxvf jdk-8u131-linux-x64.tar.gz
5、下载 apache hadoop
从apache hadoop的官网上面下载最新的稳定版本 apache hadoop 2.8
切换到 ahadoop 用户,将hadoop 2.8放于 /home/ahadoop 目录中,并解压
su ahadoopcd /home/ahadooptar -zxvf hadoop-2.8.0.tar.gz
6、配置zookeeper
要实现hadoop namenode HA高可用,且实现故障的自动切换,则要借助于zookeeper
注意:如果只是实现namenode HA高可用,是可以不用zookeeper的,只要配置hadoop的journalnode节点即可实现高可用。而配置zookeeper集群,主要是为了监控心跳,实现故障时自动切换,这才是我们配置HA高可用的重要目标。
(1)下载zookeeper
到apache zookeeper官方下载最新版本的 zookeeper-3.4.10.tar.gz
(2)配置zookeeper
配置之前,建议阅读下apache zookeeper官方的配置安装介绍
zookeeper集群只能配置奇数个节点,例如3、5、7……,至少要3个及以上,这跟zookeeper的保障机制有关,要确保大多数节点可用,即(n-1)/2,因此节点数必须是奇数
解压zookeeper(hd1,hd2,hd3)
cd /home/ahadooptar -zxvf zookeeper-3.4.10.tar.gz
创建zookeeper数据文件(hd1,hd2,hd3),其中不同的节点使用myid进行区分,一般使用1、2、3……
mkdir /home/ahadoop/zookeeper-dataecho '1' > /home/ahadoop/zookeeper-data/myidecho '2' > /home/ahadoop/zookeeper-data/myidecho '3' > /home/ahadoop/zookeeper-data/myid
配置zoo.cfg配置文件
vi /home/ahadoop/zookeeper-3.4.10/conf/zoo.cfgdataDir=/home/ahadoop/zookeeper-data # 修改zookeeper数据目录clientPort=2181 # 默认端口server.1=hd1:2888:3888server.2=hd2:2888:3888server.3=hd3:2888:3888
其中 server.1、server.2、server.3 里面的 server.x 最后的序号则是不同节点的myid文件里面的id
到此,zookeeper已经配置完毕,使用 zkServer.sh start 命令在每个节点启动zookeeper(hd1,hd2,hd3)
使用 zkServer.sh status 即可查看节点的状态,最后的Mode表示该节点在集群中的角色,一个zookeeper集群只有一个leader,其它都是follower
[ahadoop@31d48048cb1e ~]$ zkServer.sh start &[1] 6855[ahadoop@31d48048cb1e ~]$ ZooKeeper JMX enabled by defaultUsing config: /home/ahadoop/zookeeper-3.4.10/bin/../conf/zoo.cfgStarting zookeeper ... STARTED[1]+ Done zkServer.sh start[ahadoop@1620d6ed305d ~]$[ahadoop@1620d6ed305d ~]$[ahadoop@1620d6ed305d ~]$ zkServer.sh statusZooKeeper JMX enabled by defaultUsing config: /home/ahadoop/zookeeper-3.4.10/bin/../conf/zoo.cfgMode: leader
7、配置hadoop的配置文件
配置hadoop集群前,建议先阅读下apache hadoop官网的集群配置说明,虽然是英文文档,但是简单易懂,有助于进一步了解hadoop集群知识,官方的配置介绍如下(p.s. 参照官网里面的配置说明进行配置,发现有小部分错误,直到实际配置时才发现,下面会介绍):
apache hadoop 单节点配置官方介绍
apache hadoop 集群配置官方介绍
apache hadoop namenode HA(基于QJM)配置官方介绍
apache hadoop resourcemanager HA 配置官方介绍
(1)创建相应的文件夹(每个节点)
mkdir /home/ahadoop/hadoop-datamkdir /home/ahadoop/hadoop-data/namemkdir /home/ahadoop/hadoop-data/datamkdir /home/ahadoop/hadoop-data/checkpointmkdir /home/ahadoop/hadoop-data/tmpmkdir /home/ahadoop/hadoop-data/logmkdir /home/ahadoop/hadoop-data/journalnode
主文件夹为hadoop-data,其中:
name:存放namenode的数据
data:存放datanode的数据
checkpoint:存在namenode的checkpoint数据
tmp:临时文件
log:存放日志
journalnode:存在jounalnode的数据
(2)配置core-site.xml配置文件
官方提供了默认的 core-default.xml 配置文件可供参考,但内容很多,我们可根据需要进行配置
fs.defaultFS hdfs://hdcluster dfs.journalnode.edits.dir /home/ahadoop/hadoop-data/journalnode hadoop.tmp.dir /home/ahadoop/hadoop-data/tmp fs.trash.interval 1440 io.file.buffer.size 65536 ha.zookeeper.quorum hd1:2181,hd2:2181,hd3:2181
其中,
fs.defaultFS:表示集群namenode的地址,对于namenode HA来说,需要取一个cluster id来作区分,以便于区分跟hadoop联邦的其它namenode,这里取hdcluster作为该集群的ID
dfs.journalnode.edits.dir、hadoop.tmp.dir:表示journalnode的数据文件路径、临时文件路径
fs.trash.interval:表示回收站的保留时间(分钟),也即hdfs的文件删除后,在回收站里面保留的时长
io.file.buffer.size:表示读取文件的字节数(byte)
ha.zookeeper.quorum:表示zookeeper集群的主机与端口
(3)配置hdfs-site.xml配置文件
官方提供了默认的 hdfs-default.xml 配置文件 可供参考,根据需要进行配置如下
dfs.replication 3 dfs.namenode.name.dir /home/ahadoop/hadoop-data/name dfs.blocksize 67108864 dfs.datanode.data.dir /home/ahadoop/hadoop-data/data dfs.namenode.checkpoint.dir /home/ahadoop/hadoop-data/checkpoint dfs.namenode.handler.count 10 dfs.datanode.handler.count 10 dfs.nameservices hdcluster dfs.ha.namenodes.hdcluster nn1,nn2 dfs.namenode.rpc-address.hdcluster.nn1 hd1:9000 dfs.namenode.rpc-address.hdcluster.nn2 hd2:9000 dfs.namenode.http-address.hdcluster.nn1 hd1:50070 dfs.namenode.http-address.hdcluster.nn2 hd2:50070 dfs.namenode.shared.edits.dir qjournal://hd1:8485;hd2:8485;hd3:8485/hdcluster dfs.client.failover.proxy.provider.hdcluster org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider dfs.ha.automatic-failover.enabled.hdcluster true dfs.ha.fencing.methods shell(/bin/true)
其中:
dfs.replication:表示hdfs的数据块备份数量,默认是3
dfs.namenode.name.dir,dfs.datanode.data.dir,dfs.namenode.checkpoint.dir:表示namenode、datanode、checkpoint的数据路径
dfs.blocksize:表示数据块的大小,默认为64M,可根据需要改为128M,甚至256M
dfs.namenode.handler.count、dfs.datanode.handler.count:表示在namenode、datanode的进程数
dfs.nameservices:表示集群namenode的ID,这里命名为hdcluster,注意要跟 core-size.xml 里面的配置项 fs.defaultFS 中的集群ID一致
dfs.ha.namenodes.hdcluster:表示namenode的id,这里有两个namenode节点,因此使用nn1,nn2命名
dfs.namenode.rpc-address.hdcluster.nn1,dfs.namenode.rpc-address.hdcluster.nn2:表示nn1、nn2的远程调用主机和端口
dfs.namenode.http-address.hdcluster.nn1,dfs.namenode.http-address.hdcluster.nn2:表示 nn1、nn2的所在节点http服务和端口
dfs.namenode.shared.edits.dir:表示namenode共享的元数据路径,在配置HA时,使用journalnode来保存元数据,维持namenode元数据的一致性
dfs.client.failover.proxy.provider.hdcluster:表示HDFS客户端连接到Active NameNode的一个java类(默认)
dfs.ha.automatic-failover.enabled.hdcluster:表示当namenode ha的active namenode出现故障时,是否自动切换(当然要设置为true了,^^)
dfs.ha.fencing.methods:表示故障时自动切换使用的方法
【敲黑板,注意了同学们,以下是重点】官方给的例子配置值是sshfence,但经试验,使用这种方式根本就不会自动切换,而是namenode active故障时,namenode standby仍旧是standby,只有我们登陆到namenode active故障节点,再将故障的namenode重新恢复启动后,原先的namenode standby才会自动切换为namenode active,(心中突然万马奔腾啊……),这根本不是我们配置高可用的目的啊
经研究,fencing的方法目前有两种:sshfence和shell。其中:
sshfence方法:是指通过ssh登陆到active namenode节点杀掉namenode进程,所以还需要设置ssh无密码登陆,还要保证有杀掉namenode进程的权限
shell方法:是指运行一个shell脚本/命令来防止两个namenode同时处于active,脚本需要自己写。但其实QJM模式本身就有fencing功能,能保证只有一个namenode能往journalnode上写edits文件,所以是不需要设置fencing的方法就能实现的。但是,在发生failover的时候,原来的active namenode可能还在接受客户端的读请求,这样客户端很可能读到一些过时的数据(因为新的active namenode的数据已经实时更新了)。因此,还是建议设置fencing方法。如果确实不想设置fencing方法,可以设置一个能返回成功(没有fencing作用)的方法,如"shell(/bin/true)"。这个纯粹为了fencing方法能够成功返回,并不需要真的有fencing作用。这样可以提高系统的可用性,即使在fencing机制失败的时候还能保持系统的可用性。
(4)配置mapred-site.xml
官方提供了默认的 mapred-default.xml 配置文件 可供参考,我们的配置如下
mapreduce.framework.name yarn
该配置表示使用yarn框架
(5)配置yarn-site.xml
官方提供了默认的 yarn-default.xml 配置文件 可供参考,再结合 ResourceManager HA 的官方介绍,配置如下
yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.ha.enabled true yarn.resourcemanager.cluster-id hdcluster yarn.resourcemanager.ha.rm-ids rm1,rm2 yarn.resourcemanager.hostname.rm1 hd3 yarn.resourcemanager.hostname.rm2 hd4 yarn.resourcemanager.webapp.address.rm1 hd3:8088 yarn.resourcemanager.webapp.address.rm2 hd4:8088 yarn.resourcemanager.zk-address hd1:2181,hd2:2181,hd3:2181
其中,
yarn.nodemanager.aux-services:NodeManager上运行的附属服务,需配置成mapreduce_shuffle,才可运行MapReduce程序,否则会报错
yarn.resourcemanager.ha.enabled:表示启动resourcemanager HA高可用
yarn.resourcemanager.cluster-id:表示resourcemanager的集群ID,不要与别的集群混淆即可,这里命名为hdcluster
yarn.resourcemanager.ha.rm-ids:表示resourcemanager的节点id,这里有两个节点,使用rm1,rm2作为ID
yarn.resourcemanager.hostname.rm1,yarn.resourcemanager.hostname.rm2:表示rm1,rm2的主机,这里取hd3、hd4
yarn.resourcemanager.webapp.address.rm1,yarn.resourcemanager.webapp.address.rm2:表示rm1,rm2的网页访问地址和端口,也即通过该地址和端口可访问作业情况
yarn.resourcemanager.zk-address:表示使用zookeeper来协助管理resourcemanager主备的zookeeper集群主机与端口
(6)配置slave节点主机
配置hadoop分布式集群的slaves节点主机列表,也即datanode运行的节点,这里取hd2、hd3、hd4
vi /home/ahadoop/hadoop-2.8.0/etc/hadoop/slaves# 配置slave主机hd2hd3hd4
(7)配置log4j日志 log4j.properties
根据需要修改log4j的日志保存路径,以及日志输出的粒度
vi /home/ahadoop/hadoop-2.8.0/etc/hadoop/log4j.properties# 修改日志的路径hadoop.log.dir=/home/ahadoop/hadoop-data/log
(8)配置bash的环境变量
编辑.bash_profile文件,配置环境变量,方便日常执行命令
vi /home/ahadoop/.bash_profile# 在 .bash_profile 末尾增加以下配置export JAVA_HOME=/usr/java/jdk1.8.0_131export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$PATH:$JAVA_HOME/binexport HADOOP_HOME=/home/ahadoop/hadoop-2.8.0export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport ZOOKEEPER_HOME=/home/ahadoop/zookeeper-3.4.10export PATH=$PATH:$ZOOKEEPER_HOME/bin
配置后,使用source命令使其生效
source /home/ahadoop/.bash_profile
8、格式hadoop namenode,并启动hadoop分布式集群
通过以上的配置文件,已完成了hadoop集群的配置。在首次运行hadoop集群时,须先进行namenode的格式化,然后再启动整个集群。
注意:只有第一次运行,才需要格式化namenode哦,以后就不用了,否则一格式化将会清空整个集群的元数据和数据块
hadoop的sbin目录里面提供了便捷的启动脚本
最简单的有start-all.sh、stop-all.sh脚本,可直接启动/终止整个hadoop集群,使用这两个命令,必须实现集群节点ssh免密码登录,如在hd1主机执行这些命令,则须实现hd1免密码登录到hd2、hd3、hd4。在生产环境中,不推荐使用start-all.sh、stop-all.sh来维护整个集群,可能启动/终止过程会出现什么问题,影响到整个集群。在个人测试环节,则请便,怎么6、怎么来。
另外,还提供了start-dfs.sh、stop-dfs.sh来启动/终止hdfs,start-yarn.sh、stop-yarn.sh来启动/终止yarn,同样需要实现集群节点的ssh免密码登录,在生产环境,也不推荐使用这种方式。在个人测试环节,则请便,怎么6、怎么来。
第三,还提供了hadoop-daemon.sh,yarn-daemon.sh来启动/终止hdfs、yarn,使用方法如下,当执行hadoop-daemon.sh start namenode,则是启动namenode(secondaryname、datanode、journalnode等类似),使用stop则是终止;当执行yarn-daemon.sh start resourcemanager,则是启动resourcemanager(nodemanager类似),使用stop则是终止。使用这种启动方式,需要各个节点,逐一启动相应的进程,无须实现ssh免密码登录。这种方式的好处在于,某个节点的进程启动/终止,如果有问题,不会影响到整个集群,但管理员必须对整个集群的节点功能分布非常清楚。
第四,hadoop新版本还提供了hdfs、yarn的进程启动/终止方式(位于hadoop的bin目录),使用方法如下,hdfs namenode,则是启动namenode(secondaryname、datanode、journalnode等类似),那如果要终止呢???kill吧,kill 相应的进程会自动调用终止程序;yarn resourcemanager,则是启动resourcemanager(nodemanager类似),如果要终止,同样kill就好。使用这种方式,对于初学者来说,可以更好的搞清楚整个集群节点的启动顺序。
在本测试中,便是使用hdfs、yarn来启动节点
首次使用hadoop分布式集群时,需要格式化namenode,并同步ha状态到zookeeper,启动的顺序如下:
# 首次格式化启动顺序# 启动 zookeeper(hd1,hd2,hd3)zkServer.sh start 启动 journalnode(hd1,hd2,hd3)hdfs journalnode 格式化 namenode(hd1)hdfs namenode -format# 初始化 HA 状态到 zk(hd1)hdfs zkfc -formatZK 启动 namenode active(hd1)hdfs namenode 同步 namenode(hd2)hdfs namenode -bootstrapStandby# 启动 namenode standby(hd2)hdfs namenode 启动ZookeeperFailoverController(hd1,hd2)hdfs zkfc 启动 datanode(hd2,hd3,hd4)hdfs datanode 启动 resourcemanager(hd3,hd4)yarn resourcemanager 启动 nodemanager(hd2,hd3,hd4)yarn nodemanager &
启动后,使用jps在各个节点,查看进程的启动情况
# hd1[ahadoop@31d48048cb1e ~]$ jps8976 NameNode8803 JournalNode9172 Jps9092 DFSZKFailoverController8750 QuorumPeerMain# hd2[ahadoop@1620d6ed305d ~]$ jps7428 QuorumPeerMain7636 NameNode8021 Jps7719 DFSZKFailoverController7784 DataNode7884 NodeManager7487 JournalNode# hd3[ahadoop@ed3702f8924e ~]$ jps4320 QuorumPeerMain4451 DataNode4900 Jps4772 NodeManager4373 JournalNode4540 ResourceManager# hd4[ahadoop@ee8319514df6 ~]$ jps4578 NodeManager4707 Jps4489 DataNode4508 ResourceManager
至今,整个集群就成功启动了
如果以后使用时,就不用再格式化namenode了(否则数据会完蛋),那么正常情况下,集群启动的顺序为
# 日常使用的启动顺序# 启动 zookeeper(hd1,hd2,hd3)zkServer.sh start 启动 journalnode(hd1,hd2,hd3)hdfs journalnode 启动 namenode active(hd1)hdfs namenode 启动 namenode standby(hd2)hdfs namenode 启动ZookeeperFailoverController(hd1,hd2)hdfs zkfc 启动 datanode(hd2,hd3,hd4)hdfs datanode 启动 resourcemanager(hd3,hd4)yarn resourcemanager 启动 nodemanager(hd2,hd3,hd4)yarn nodemanager &
9、hadoop集群测试
集群启动后,在浏览器输入以下网址查看namenode、resourcemanager的状态
输入网址 http://172.17.0.1:50070 查看 namenode(active)节点信息
输入网址 http://172.17.0.2:50070 查看 namenode(standby)节点信息
输入网址 http://172.17.0.3:8088 查看 resourcemanager 节点信息
使用官网的例子,测试集群的map-reduce
这个例子是使用了hadoop自带的map-reduce jar包,对etc/hadoop的xml配置文件里面的配置项进行数量统计(类似于经典的wordcount测试)
具体步骤如下:
# 创建 hdfs 目录hdfs dfs -mkdir /userhdfs dfs -mkdir /user/ahadoophdfs dfs -mkdir input# 上传 etc/hadoop 的 xml 配置文件hdfs dfs -put /home/ahadoop/hadoop-2.8.0/etc/hadoop/*.xml input# 执行自带的 map reduce jar程序hadoop jar /home/ahadoop/hadoop-2.8.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'# 获取执行结果hdfs dfs -get output output# 查看执行结果cat output/*
执行后,结果如下
从上图可看出,使用map reduce统计了配置项的数量结果
10、hadoop 集群的 HA 测试
hadoop 集群的 HA 高可用性是本次搭建集群的重要目标,下面将对 hadoop 集群的 namenode ha、resourcemanager ha 进行测试
(1)namenode ha 测试
目前 hd1 的 namenode 是 active 状态,hd2 的 namenode 是 standby 状态,简单粗暴地对 hd1 的 namenode 进行 kill 掉,也就是使 hd1 的 namenode 发生故障,这时再看 hd2 的 namenode ,会发现已自动切换为 active 状态
说明 namenode ha 故障自动切换成功
(2)resourcemanager ha 测试
hd3、hd4的resourcemanager ha,打开网页后并没有看到 active、standby 状态,这时如果 hd3 是 active状态,输入 http://172.17.0.3:8088 可看到resourcemanger页面。而输入 http://172.17.0.4:8088 时,则会自动切换回 htttp://172.17.0.3:8088 页面。
这里通过后台可查看两个resourcemanager的状态,命令如下
# 查看 resourcemanager 状态[ahadoop@ed3702f8924e ~]$ yarn rmadmin -getServiceState rm1 active[ahadoop@ed3702f8924e ~]$ yarn rmadmin -getServiceState rm2 standby
在测试resourcemanager ha时,将active节点的resourcemanager进行kill掉,这时再查看rm2状态,会发现已经变量 active 状态
[ahadoop@ed3702f8924e ~]$ yarn rmadmin -getServiceState rm2 active
可通过以下指令进行 active、standby 状态切换(--forcemanual 表示强制)
# 切换 resourcemanager 主备# 切换为 standby 状态yarn rmadmin -transitionToStandby --forcemanual rm2# 切换为 active 状态yarn rmadmin -transitionToActive --forcemanual rm1
注意,这里如果是active状态的强制切换为standby,是可以成功切换,也就是说两个节点都是standby状态。但如果已经有一个active状态的,这时再将另一个standby状态切换为active状态,则无法进行切换,系统提示已经有一个active状态的节点了。
[ahadoop@ee8319514df6 ~]$ yarn rmadmin -transitionToActive --forcemanual rm2You have specified the --forcemanual flag. This flag is dangerous, as it can induce a split-brain scenario that WILL CORRUPT your HDFS namespace, possibly irrecoverably.It is recommended not to use this flag, but instead to shut down the cluster and disable automatic failover if you prefer to manually manage your HA state.You may abort safely by answering 'n' or hitting ^C now.Are you sure you want to continue? (Y or N) Y17/06/18 16:53:01 WARN ha.HAAdmin: Proceeding with manual HA state management even thoughautomatic failover is enabled for org.apache.hadoop.yarn.client.RMHAServiceTarget@3444d69d17/06/18 16:53:02 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicabletransitionToActive: Node rm1 is already activeUsage: rmadmin [-transitionToActive [--forceactive]]
11、hadoop分布式集群简单搭建
上面的配置是针对namenode ha、resourcemanager ha进行配置,会比较复杂,如果只是要简单地搭建一个hadoop分布式集群,暂时不用配置namenode ha、resourcemanager ha的,则配置会简单很多,以下给出hadoop分布式集群简单搭建的相关配置,如下
(1)core-site.xml
fs.defaultFS hdfs://hd1:9000 hadoop.tmp.dir /home/ahadoop/hadoop-data/tmp fs.trash.interval 1440 io.file.buffer.size 65536
(2)hdfs-site.xml
dfs.replication 3 dfs.namenode.name.dir /home/ahadoop/hadoop-data/name dfs.blocksize 67108864 dfs.datanode.data.dir /home/ahadoop/hadoop-data/data dfs.namenode.checkpoint.dir /home/ahadoop/hadoop-data/checkpoint dfs.namenode.handler.count 10 dfs.datanode.handler.count 10
(3)mapred-site.xml
mapreduce.framework.name yarn
(4)yarn-site.xml
yarn.resourcemanager.hostname hd3 yarn.nodemanager.aux-services mapreduce_shuffle
(5)slaves
hd2hd3hd4
(6).bash_profile
# 设置环境变量vi /home/ahadoop/.bash_profileexport JAVA_HOME=/usr/java/jdk1.8.0_131export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$PATH:$JAVA_HOME/binexport HADOOP_HOME=/home/ahadoop/hadoop-2.8.0export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(7)格式化namenode,启动hadoop集群
# 格式化 namenode(hd1)hdfs namenode -format# 启动 namenode(hd1)hdfs namenode 启动 secondarynamenode(hd2)hdfs secondarynamenode 启动 datanode(hd2、hd3、hd4)hdfs datanode 启动 resourcemanager(hd2)yarn resoucemanager 启动 nodemanager(hd2、hd3、hd4)hdfs nodemanager &
(8)访问namenode、resourcemanager页面
访问 namenode 页面
http://172.17.0.1:50070
访问 resourcemanager 页面
http://172.17.0.2:8088
12、apache hadoop官方配置文档的一些问题
(1)官网给的namenode ha配置说明文档,里面关于自动切换故障的配置,官网给的配置是(hdfs-site.xml)
dfs.ha.automatic-failover.enabled true
而实际在配置时,后面还要加上集群ID,本测试的集群ID是hdcluster,因此正常的配置是
dfs.ha.automatic-failover.enabled.hdcluster true
(2)关于启动命令的问题
官网给的hadoop集群配置的说明文档,里面关于节点进程的启动命令为:
[hdfs]$ $HADOOP_HOME/bin/hdfs --daemon start namenode[hdfs]$ $HADOOP_HOME/bin/hdfs --daemon start datanode[yarn]$ $HADOOP_HOME/bin/yarn --daemon start resourcemanager[yarn]$ $HADOOP_HOME/bin/yarn --daemon start nodemanager
但实际无法执行(也有可能是3.0 beta版的指令,没试过),执行会提示
[ahadoop@31d48048cb1e ~]$ hdfs --daemon start namenodeUnrecognized option: --daemonError: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.
不支持 --daemon 这个参数,因此,实际在启动这些节点进程时,启动命令为
[hdfs]$ $HADOOP_HOME/bin/hdfs namenode[hdfs]$ $HADOOP_HOME/bin/hdfs datanode[yarn]$ $HADOOP_HOME/bin/yarn resourcemanager[yarn]$ $HADOOP_HOME/bin/yarn nodemanager
上述就是小编为大家分享的Apache Hadoop 2.8 完全分布式集群搭建过程是怎样的了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。