千家信息网

Hadoop2.4.1伪分布式如何配置

发表于:2025-02-08 作者:千家信息网编辑
千家信息网最后更新 2025年02月08日,这篇文章主要介绍了Hadoop2.4.1伪分布式如何配置,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。实验环境:VMware Work
千家信息网最后更新 2025年02月08日Hadoop2.4.1伪分布式如何配置

这篇文章主要介绍了Hadoop2.4.1伪分布式如何配置,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

实验环境:

VMware Workstation 10.0

CentOS 6.5

Hadoop 2.4.1

Jdk1.7.0

一. Linux系统环境准备

用WindSCP等软件,把JDK和Hadoop的安装包上传到CentOS虚拟机中。

用户设置

如果用普通用户进行以下操作,先把普通用户添加到/etc/sudoers文件中,以便能执行sudo命令。

切换到root$su -添加普通用户到sudoers#vim /etc/sudoers在文件的99行添加 hadoop ALL=(ALL) ALL添加普通用户hadoop

配置IP

虚拟机使用NAT模式。

用图形界面或直接修改/etc/sysconfig/network-scripts/ifcfg-eth0文件IP:192.168.18.101MASK:255.255.255.0ROUTE:192.168.18.1
修改主机名

非必须步骤,为了以后的方便,还是配置的好。

修改主机名为hadoop001,重启生效[root@localhost ~]# vim /etc/sysconfig/network   NETWORKING=yes   HOSTNAME=hadoop001查看主机名[root@localhost ~]# hostname
配置主机名和IP的映射
为了测试方便,也可以再配置宿主机windows的映射 C:\Windows\System32\drivers\etc\hosts[root@localhost ~]# vim /etc/hosts添加: 192.168.18.101 hadoop001
关闭防火墙

不关闭防火墙,其他主机不能访问http等服务。当然,如果你会,自己配置防火墙更好。

关闭防火墙[root@localhost ~]# service iptables stop查看防火墙状态[root@localhost ~]# service iptables statusiptables: Firewall is not running.设置开机不启动防火墙[root@localhost ~]# chkconfig iptables off
配置完成,重启CentOS
#reboot

二. 安装JDK和Hadoop

解压JDK和Hadoop的安装包*.tar.gz.

配置环境变量

重新编译环境变量配置文件#source /etc/profile测试命令$java -version$hadoop

三.Hadoop配置

1. etc/hadoop/hadoop-env.sh

修改 HADOOP_HOME/etc/hadoop/hadoop-env.sh

把27行,${JAVA_HOME}换成jdk的绝对路径。

可能是hadoop的shell脚本问题,这里经常获取JAVA_HOME失败,所以替换成jdk的绝对路径。

2. etc/hadoop/core-site.xml
              fs.defaultFS         hdfs://hadoop001:9000                      hdfs://hostname|IP:port             文件系统的名字,默认端口号为8020(见NameNode源码),                           hadoop.tmp.dir          /home/hadoop/apps/hadoop-2.4.1/tmp                         指定name table(fsimage)在本地系统的存放位置,               如果value是以逗号分隔的多个目录,则会在每个目录中保存一份,作为冗余备份。               注意:如果最前面不加/ 就是相对HADOOP_HOME的路径               
3. etc/hadoop/hdfs-site.xml
            dfs.replication        1                    block副本的数量(副本因子)            在搭建伪分布式时,值为1就行,覆盖hdfs-default.xml中配置的默认值3。             
4. etc/hadoop/mapred-site.xml

修改mapred-site.xml.template文件名为mapred-site.xml

              mapreduce.framework.name         yarn                  指定MapReduce运行在Yarn上     
5. etc/hadoop/yarn-site.xml
                    yarn.resourcemanager.hostname            hadoop001                                yarn.nodemanager.aux-services            mapreduce_shuffle    

四. 启动Hadoop

SSH免密码登录

设置无密码登录NameNode等节点。因为我们是伪分布式实验环境,所以启动或关闭HDFS和Yarn时每次输入密码不方便。

测试一下,是否可以通过SSH免密码的登录

  $ ssh localhost

If you cannot ssh to localhost without a passphrase, execute the following commands:

  $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  #然后再用ssh localhost测试一下,如果不行,就改一下秘钥的权限。  #chmod 600 .ssh/*
格式化HDFS

为什么需要格式化?

和使用新买的硬盘时,也需要格式一下一个道理,根据选择的文件系统类型对磁盘进行配置。

windows下选择NTFS文件系统,这个是HDFS文件系统,只不过HDFS的是一个逻辑磁盘

hfds namenode -format  或hadoop namenode -form  这是hadoop1.x中的命令,已经过时。

格式化成功后,Hadoop会在core-site.xml文件中配置的hadoop.tmp.dir目录下自动创建dfs/name目录。

格式化信息:

查看初始状态下dfs/name下只有fsimage文件。

启动Hadoop服务
hadoop 1.x通过start-all.sh启动hdfs和MapReduce$ bin/start-all.shhadoop2.x启动hdfs服务$start-dfs.sh启动yarn$start-yarn.sh
验证成功启动

1) 用JPS查看java进程

2)Browse the web interface for the NameNode and theMapReduce

NameNode Web UI- http://localhost:50070/

MapReduce Web UI - http://localhost:8088/

感谢你能够认真阅读完这篇文章,希望小编分享的"Hadoop2.4.1伪分布式如何配置"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!

0