Hadoop中的Shuffle是什么
发表于:2025-02-07 作者:千家信息网编辑
千家信息网最后更新 2025年02月07日,小编给大家分享一下Hadoop中的Shuffle是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Shuffle描述着数
千家信息网最后更新 2025年02月07日Hadoop中的Shuffle是什么
小编给大家分享一下Hadoop中的Shuffle是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
Shuffle描述着数据从Map Task输出到Reduce Task输入的这段过程。
Map端:
1、每个Map有一个环形内存缓冲区,用于存储任务的输出,默认大小100MB(io.sort.mb属性),一旦达到阀值
0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个
溢出文件。
2、在写入磁盘前,要Partitioner,Sort,如果有Combiner(聚合),Combiner排序后在写入数据。
3、等最后把记录写完,合并全部溢出写文件为一个分区且排序的文件。
Reduce端:
1、Reduce通过Http方式得到输出的文件的分区。
2、TaskTracker为分区文件运行Reduce任务。复制阶段把Map输出复制到Reduce的内存或磁盘。一个Map任 务完成,Reduce就开始复制输出。
3、排序阶段合并Map输出,然后走Reduce阶段。
注意:在有些情况下,也有可能没有任何的Reduce,当前数据处理可以完全并行时,即无需混洗(shuffle),可能
会出现无Reduce任务的情况,在这种情况下,唯一的非本地节点数据传输是Map任务将结果写入HDFS.
以上是"Hadoop中的Shuffle是什么"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
输出
文件
任务
数据
内容
情况
磁盘
篇文章
阶段
排序
内存
不怎么
后台
大小
大部分
属性
数据传输
数据处理
方式
更多
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库技术与应用课程论文
来宾伟终网络技术有限公司
自媒体软件开发公司
私彩服务器
北斗导航网络技术
红色档案数据库建设项目概况
杭州电子网络技术收费
中国100强网络安全企业
西安系统软件开发
dns服务器主要分为几种
网络安全防校园欺凌观后感
wps数据库怎么引用
设计软件开发技术就业前景
考试服务器白屏
如何给我的世界服务器添加模组
群硕软件开发 上海 有限公司
moco在服务器上怎么训练的
asp 上传 到数据库
tcpproxy读写数据库
网络安全做的好的公司
链家凶宅数据库怎么查
高斯数据库自增字段
德甲球队数据库
节能网络技术值得推荐
软件开发网络设计哪个更好
软件开发数据库选择
中石化软件开发外派
学习对网络安全的知识
个体户软件开发名称
服务器光驱转usb