导航：首页 > 服务器 >

如何构建MapReduce程序的基础模板

发表于：2024-11-24 作者：千家信息网编辑

千家信息网最后更新 2024年11月24日，本篇内容主要讲解"如何构建MapReduce程序的基础模板"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"如何构建MapReduce程序的基础模板"吧!什么

千家信息网最后更新 2024年11月24日如何构建MapReduce程序的基础模板

本篇内容主要讲解"如何构建MapReduce程序的基础模板"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"如何构建MapReduce程序的基础模板"吧!

什么是开发数据集？

一个流行的开发策略是为生产环境中的大数据集建立一个较小的、抽样的数据子集，称为开发数据集。这个开发数据集可能只有几百兆字节。当你以单机或者伪分布式模式编写程序来处理它们时，你会发现开发周期很短，在自己的机器上运行程序也很方便，而且还可以在独立的环境中进行调试。

为什么选择专利引用数据做测试？

1、因为它们与你将来会遇到的大多数数据类型相似

2、专利引用数据所构成的关系图与网页链接以及社会网络图可谓大同小异

3、专利发布以时间为序，有些特性类似于时间序列

4、每个专利关联到一个人 (发明人) 和一个位置 (发明人的国家)，你可以将之视为个人信息或地理数据

5、你可以将这些数据视为具有明确模式的普通数据库关系，而格式上简单地以逗号分开

数据集采用标准

数据集采用标准的逗号分隔取值 (comma-separated values, CSV) 格式。

构建MapReduce程序的基础模板

大多数MapReduce程序的编写都可以简单地依赖于一个模板及其变种，当撰写一个新得MapReduce程序时，我们通常会采用一个现有的MapReduce程序，并将其修改成我们所希望的样子。

典型的Hadoop程序的模板

public class MyJob extends Configured implements Tool {

public static class MapClass extends MapReduceBase

implements Mapper {

public void map (Text key, Text value,

OutputCollector output,

Reporter reporter) throws IOException {

output.collect(value, key);

}

public static class Reduce extends MapReduceBase

implements Reducer {

public void reduce(Text key, Iterator values,

OutputCollector output,

Reporter reporter) throws IOException {

String csv = "";

while (values.hasNext()) {

if (csv.length() > 0) csv += ",";

csv += values.next().toString();

}

output.collect(key, new Text(csv));

}

public int run(String[] args) throws Exception {

Configuration conf = getConf();

JobConf job = new JobConf(conf, MyJob.class);

Path in = new Path(args[0]);

Path out = new Path(args[1]);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

job.setJobName("MyJob");

job.setMapperClass(MapClass.class);

job.setReducerClass(Reduce.class);

job.setInputFormat(KeyValueTextInputFormat.class);

job.setOutputFormat(TextOutputFormat.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(Text.class);

job.set("key.value.separator.in.input.line", ",");

JobClient.runJob(job);

return 0;

}

public static void main(String[] args) throws Exception {

int res = ToolRunner.run(new Configuration(), new MyJob(), args);

System.exit(res);

}

1、我们习惯用单个类来完整地定义每个MapReduce作业，这里成为MyJob类

2、Hadoop要求Mapper和Reducer必须是它们自身的静态类，这些类非常小，模板将它们包含在MyJob类中作为内部类，这样做的好处是可以把所有的东西放在一个文件内，简化代码管理

3、但是需要记住这些内部类是独立的，通常不与MyJob类进行交互

4、在作业执行期间，采用不同JVM的各类节点复制并运行Mapper和Reducer，而其他的作业类仅在客户机上执行

解释下run()方法

1、框架的核心在run()方法中，也称为driver

2、它实例化、配置并传递一个JobConf对象命名的作业给JobClient.runJob()以启动MapReduce作业(反过来，JobClient类与JobTracker通信让该作业在集群上启动)

3、JobConf对象将保持作业运行所需的全部配置参数

4、Driver需要在作业中为每个作业定制基本参数，包括输入路径、输出路径、Mapper类和Reducer类

5、每个作业可以重置默认的作业属性，例如，InputFormat、OutputFormat等，也可以调用JobConf对象中的set()方法填充任意的配置参数

6、一旦传递JobConf对象到JobClient.runJob()，他就被视为决定这个作业如何运行的蓝本

关于driver的配置的一些说明

1、JobConf对象有许多参数，但我们并不希望全部的参数都通过编写driver来设置，可以把Hadoop安装时的配置文件作为一个很好的起点

2、用户可能希望在命令行启动一个作业时传递额外的参数来改变作业配置

3、Driver可以通过自定义一组命令并自行处理用户参数，来支持用户修改其中的一些配置

4、因为经常需要做这样的任务，Hadoop框架便提供了ToolRunner、Tool和Configured来简化其实现。

5、当它们在上面的MyJob框架中被同时使用时，这些类使得作业可以理解用户提供的被GenericOptionParser支持的选项

比如下面的命令：

bin/hadoop jar playgroup/MyJob.jar MyJob input/cite75-99.txt output

如果我们运行作业仅仅是想看到mapper的输出 (处于调试的目的), 可以用选项 -D mapred.reduce.tasks=0将reducer的数目设置为0

bin/hadoop jar playgroup/MyJob.jar MyJob -D mapred.reduce.tasks=0 input/cite75-99.txt output

通过使用ToolRunner、MyJob可以自动支持一下选项
GenericOptionsParser支持的选项

选项	描述
-conf	指定一个配置文件
-D	给JobConf属性赋值
-fs	指定一个NameNode，可以是 "local"
-jt	指定一个JobTracker
-files	指定一个以逗号分隔的文件列表，用于MapReduce作业。这些文件自动地分布到所有节点，使之可从本地获取
-libjars	指定一个以逗号分隔的jar文件，使之包含在所有任务JVM的classpath中
-archives	指定一个以逗号分隔的存档文件列表，使之可以在所有任务节点上打开