导航：首页 > 互联网科技 >

MAPREDUCE原理篇（2）

发表于：2025-02-01 作者：千家信息网编辑

千家信息网最后更新 2025年02月01日，3.1 mapreduce的shuffle机制3.1.1 概述：v mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shu

千家信息网最后更新 2025年02月01日MAPREDUCE原理篇（2）

3.1 mapreduce的shuffle机制

3.1.1 概述：

v mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；

v shuffle: 洗牌、发牌--（核心机制：数据分区，排序，缓存）；

v 具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序；

3.1.2 主要流程：

Shuffle缓存流程：

shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和reduce task节点上完成的，整体来看，分为3个操作：

1、分区partition

2、Sort根据key排序

3、Combiner进行局部value的合并

3.1.3 详细流程

1、 maptask收集我们的map()方法输出的kv对，放到内存缓冲区中

2、从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件

3、多个溢出文件会被合并成大的溢出文件

4、在溢出过程中，及合并的过程中，都要调用partitoner进行分组和针对key进行排序

5、 reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据

6、 reducetask会取到同一个分区的来自不同maptask的结果文件，reducetask会将这些文件再进行合并（归并排序）

7、合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）

Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快

缓冲区的大小可以通过参数调整, 参数：io.sort.mb 默认100M

3.1.4 详细流程示意图

3.2. MAPREDUCE中的序列化

3.2.1 概述

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系。。。。），不便于在网络中高效传输；

所以，hadoop自己开发了一套序列化机制（Writable），精简，高效

3.2.2 Jdk序列化和MR序列化之间的比较

简单代码验证两种序列化机制的差别：

public class TestSeri {

public static void main(String[] args) throws Exception {

//定义两个ByteArrayOutputStream，用来接收不同序列化机制的序列化结果

ByteArrayOutputStream ba = new ByteArrayOutputStream();

ByteArrayOutputStream ba2 = new ByteArrayOutputStream();

//定义两个DataOutputStream，用于将普通对象进行jdk标准序列化

DataOutputStream dout = new DataOutputStream(ba);

DataOutputStream dout2 = new DataOutputStream(ba2);

ObjectOutputStream obout = new ObjectOutputStream(dout2);

//定义两个bean，作为序列化的源对象

ItemBeanSer itemBeanSer = new ItemBeanSer(1000L, 89.9f);

ItemBean itemBean = new ItemBean(1000L, 89.9f);

//用于比较String类型和Text类型的序列化差别

Text atext = new Text("a");

// atext.write(dout);

itemBean.write(dout);

byte[] byteArray = ba.toByteArray();

//比较序列化结果

System.out.println(byteArray.length);

for (byte b : byteArray) {

System.out.print(b);

System.out.print(":");

}

System.out.println("-----------------------");

String astr = "a";

// dout2.writeUTF(astr);

obout.writeObject(itemBeanSer);

byte[] byteArray2 = ba2.toByteArray();

System.out.println(byteArray2.length);

for (byte b : byteArray2) {

System.out.print(b);

System.out.print(":");

}

3.2.3 自定义对象实现MR中的序列化接口

如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序,此时，自定义的bean实现的接口应该是：

public class FlowBean implements WritableComparable

需要自己实现的方法是：

/**

* 反序列化的方法，反序列化时，从流中读取到的各个字段的顺序应该与序列化时写出去的顺序保持一致

@Override

public void readFields(DataInput in) throws IOException {

upflow = in.readLong();

dflow = in.readLong();

sumflow = in.readLong();

}

/**

* 序列化的方法

@Override

public void write(DataOutput out) throws IOException {

out.writeLong(upflow);

out.writeLong(dflow);

//可以考虑不序列化总流量，因为总流量是可以通过上行流量和下行流量计算出来的

out.writeLong(sumflow);

}

@Override

public int compareTo(FlowBean o) {

//实现按照sumflow的大小倒序排序

return sumflow>o.getSumflow()?-1:1;

}

3.3. MapReduce与YARN

3.3.1 YARN概述

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序

3.3.2 YARN的重要概念

1、 yarn并不清楚用户提交的程序的运行机制

2、 yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源）

3、 yarn中的主管角色叫ResourceManager

4、 yarn中具体提供运算资源的角色叫NodeManager

5、这样一来，yarn其实就与运行的用户程序完全解耦，就意味着yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序，tez ……

6、所以，spark、storm等运算框架都可以整合在yarn上运行，只要他们各自的框架中有符合yarn规范的资源请求机制即可

7、 Yarn就成为一个通用的资源调度平台，从此，企业中以前存在的各种运算集群都可以整合在一个物理集群上，提高资源利用率，方便数据共享

3.3.3 Yarn中运行运算程序的示例

mapreduce程序的调度过程，如下图

很赞哦！

序列程序运算资源文件过程机制流程排序数据运行方法结果缓冲区缓冲对象框架用户处理调度数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全移动信息网络安全汇报云服务器的安全组与防火墙设置人工智能的研究对象是数据库网络安全主题宣传语网络安全知识日周村机械软件开发咨询绍兴公司网络安全准入控制供应商怎样取消安装电视服务器窗体如何打开数据库用二维表表示的数据库为搞网络安全的事业单位网络安全法图解政府网优秀网络安全孔君服务器河北智能软件开发价格网高校网络安全职责黄岩区本地软件开发价格行情本地上门服务saas软件开发数据库解释关系模式的含义信诚网络技术江苏电脑软件开发电子信息网络技术的核心甘肃软件开发团队服务器更新后无法上网服务器的扩展商网络安全教育记载表培正学院网络安全专业上古世纪服务器断开网络安全等级分级实施后端代码是怎么操作数据库

千家信息网

千家信息网

MAPREDUCE原理篇（2）

3.1 mapreduce的shuffle机制

3.1.1 概述：

3.1.2 主要流程：

3.1.3 详细流程

3.1.4 详细流程示意图

3.2. MAPREDUCE中的序列化

3.2.1 概述

3.2.2 Jdk序列化和MR序列化之间的比较

3.2.3 自定义对象实现MR中的序列化接口

3.3. MapReduce与YARN

3.3.1 YARN概述

3.3.2 YARN的重要概念

3.3.3 Yarn中运行运算程序的示例

怎么解决TeamViewer试用期满重装无效的问题

FrontPage制作网页的技巧有哪些

相关文章