导航：首页 > 数据库 >

Hadoop 2.x中怎么搭建伪分布式环境

发表于：2025-02-02 作者：千家信息网编辑

千家信息网最后更新 2025年02月02日，这期内容当中小编将会给大家带来有关Hadoop 2.x中怎么搭建伪分布式环境，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1、修改hadoop-env.sh、yar

千家信息网最后更新 2025年02月02日Hadoop 2.x中怎么搭建伪分布式环境

这期内容当中小编将会给大家带来有关Hadoop 2.x中怎么搭建伪分布式环境，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

1、修改hadoop-env.sh、yarn-env.sh、mapred-env.sh

方法：使用notepad++(beifeng用户)打开这三个文件

添加代码：export JAVA_HOME=/opt/modules/jdk1.7.0_67

2、修改core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml配置文件

1）修改core-site.xml

　　　　　　fs.defaultFS　　　　hdfs://Hadoop-senior02.beifeng.com:8020　　　　　　　　hadoop.tmp.dir　　　　/opt/modules/hadoop-2.5.0/data

2）修改hdfs-site.xml

　　　　　　dfs.replication　　　　1　　　　　　　　dfs.namenode.http-address　　　　Hadoop-senior02.beifeng.com:50070

3）修改yarn-site.xml

　　　　　　yarn.nodemanager.aux-services　　　　mapreduce_shuffle　　　　　　　　yarn.resourcemanager.hostname　　　　Hadoop-senior02.beifeng.com　　　　　　　　yarn.log-aggregation-enable　　　　true　　　　　　　　yarn.log-aggregation.retain-seconds　　　　86400

4）修改mapred-site.xml

　　　　　　mapreduce.framework.name　　　　yarn　　　　　　　　mapreduce.jobhistory.webapp.address　　　　0.0.0.0:19888

3、启动hdfs

1）格式化namenode:$ bin/hdfs namenode -format

2）启动namenode:$sbin/hadoop-daemon.sh start namenode

3）启动datanode:$sbin/hadoop-daemon.sh start datanode

4）hdfs监控web页面：http://hadoop-senior02.beifeng.com:50070

4、启动yarn

1）启动resourcemanager:$sbin/yarn-daemon.sh start resourcemanager

2）启动nodemanager:sbin/yarn-daemon.sh start nodemanager

3）yarn监控web页面：http://hadoop-senior02.beifeng.com:8088

5、测试wordcount jar包

1）定位路径：/opt/modules/hadoop-2.5.0

2）代码测试：bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/sort.txt /output6/

运行过程：

16/05/08 06:39:13 INFO client.RMProxy: Connecting to ResourceManager at Hadoop-senior02.beifeng.com/192.168.241.130:8032
16/05/08 06:39:15 INFO input.FileInputFormat: Total input paths to process : 1
16/05/08 06:39:15 INFO mapreduce.JobSubmitter: number of splits:1
16/05/08 06:39:15 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1462660542807_0001
16/05/08 06:39:16 INFO impl.YarnClientImpl: Submitted application application_1462660542807_0001
16/05/08 06:39:16 INFO mapreduce.Job: The url to track the job: http://Hadoop-senior02.beifeng.com:8088/proxy/application_1462660542807_0001/
16/05/08 06:39:16 INFO mapreduce.Job: Running job: job_1462660542807_0001
16/05/08 06:39:36 INFO mapreduce.Job: Job job_1462660542807_0001 running in uber mode : false
16/05/08 06:39:36 INFO mapreduce.Job: map 0% reduce 0%
16/05/08 06:39:48 INFO mapreduce.Job: map 100% reduce 0%
16/05/08 06:40:04 INFO mapreduce.Job: map 100% reduce 100%
16/05/08 06:40:04 INFO mapreduce.Job: Job job_1462660542807_0001 completed successfully
16/05/08 06:40:04 INFO mapreduce.Job: Counters: 49

3）结果查看：bin/hdfs dfs -text /output6/par*

运行结果：

hadoop 2
jps 1
mapreduce 2
yarn 1

6、MapReduce历史服务器

1）启动：sbin/mr-jobhistory-daemon.sh start historyserver

2）web ui界面：http://hadoop-senior02.beifeng.com:19888

7、hdfs、yarn、mapreduce功能

1）hdfs：分布式文件系统，高容错性的文件系统，适合部署在廉价的机器上。

hdfs是一个主从结构，分为namenode和datanode，其中namenode是命名空间，datanode是存储空间，datanode以数据块的形式进行存储，每个数据块128M

2）yarn：通用资源管理系统，为上层应用提供统一的资源管理和调度。

yarn分为resourcemanager和nodemanager，resourcemanager负责资源调度和分配，nodemanager负责数据处理和资源

3）mapreduce：MapReduce是一种计算模型，分为Map（映射）和Reduce（归约）。