千家信息网

hadoop中map的个数是多少

发表于:2025-02-07 作者:千家信息网编辑
千家信息网最后更新 2025年02月07日,这篇文章主要介绍"hadoop中map的个数是多少",在日常操作中,相信很多人在hadoop中map的个数是多少问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"hadoo
千家信息网最后更新 2025年02月07日hadoop中map的个数是多少

这篇文章主要介绍"hadoop中map的个数是多少",在日常操作中,相信很多人在hadoop中map的个数是多少问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"hadoop中map的个数是多少"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。
为了方便介绍,先来看几个名词:
block_size : hdfs的文件块大小,默认为64M,可以通过参数dfs.block.size设置
total_size : 输入文件整体的大小
input_file_num : 输入文件的个数

(1)默认map个数
如果不进行任何设置,默认的map个数是和blcok_size相关的。
default_num = total_size / block_size;

(2)期望大小
可以通过参数mapred.map.tasks来设置程序员期望的map个数,但是这个个数只有在大于default_num的时候,才会生效。
goal_num = mapred.map.tasks;

(3)设置处理的文件大小
可以通过mapred.min.split.size 设置每个task处理的文件大小,但是这个大小只有在大于block_size的时候才会生效。
split_size = max(mapred.min.split.size, block_size);
split_num = total_size / split_size;

(4)计算的map个数
compute_map_num = min(split_num, max(default_num, goal_num))

除了这些配置以外,mapreduce还要遵循一些原则。 mapreduce的每一个map处理的数据是不能跨越文件的,也就是说min_map_num >= input_file_num。 所以,最终的map个数应该为:
final_map_num = max(compute_map_num, input_file_num)

经过以上的分析,在设置map个数的时候,可以简单的总结为以下几点:
(1)如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。
(2)如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。
(3)如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。

到此,关于"hadoop中map的个数是多少"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!

个数 文件 大小 参数 可以通过 学习 时候 处理 输入 较大 只有 更多 帮助 期望 实用 有效 接下来 也就是 也就是说 准则 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 人件集 人性化的软件开发 嵌入式开发应用软件开发 科蓝软件 网络安全 云服务器打开速度慢的解决方法 黄冈功能齐全的计算机软件开发 完善数据库的意义 ssm中代码与数据库不对应 服务器缓存软件 华为无法连接服务器请检查网络 日不落的希望免费服务器 软件开发开票几个点税率 怎么下载管理服务器 pcs服务器 远程连接达梦数据库 vb 数据库每次都重新连接 市北区app软件开发哪家靠谱 6t服务器硬盘多少钱一个 全国等级计算机网络技术一级 itcip网络服务器登录密码 靠谱的纸箱吸塑一体软件开发 网络安全和信息化的工作职责 公司组织网络安全大赛得奖方案 宁波明州网络技术 县扎实抓好网络安全宣传 2020强化网络安全 mysql强制删除数据库 小红书是用什么软件开发的 香港服务器免费试用 瓦力量化机器人软件开发 关系数据库的主要作用
0