导航：首页 > 服务器 >

Hadoop怎么优化

发表于：2025-02-01 作者：千家信息网编辑

千家信息网最后更新 2025年02月01日，小编给大家分享一下Hadoop怎么优化，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！在用hadoop测试些程序，但是，用的

千家信息网最后更新 2025年02月01日Hadoop怎么优化

小编给大家分享一下Hadoop怎么优化，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

在用hadoop测试些程序，但是，用的数据都是小数据，用hadoop处理起来相当慢，每个文件就只有几KB，而文件有几百个，这样，20MB的数据运行完就要40多分钟，而且即使是4台机器，运行完也要14分钟，这完全是浪费了hadoop，最后发现，每台电脑只有两个Map，这就让Map过很相当漫长。查了一些资料，发现暂时有两项现在我用得着

1、设置Map数：

在conf文件夹中的mapred-site.xml文件里加入

mapred.tasktracker.map.tasks.maximum

格式如下：

    mapred.tasktracker.map.tasks.maximum    10

这里只设置了10个，看网上说的一般一个节点的map数是30到300个，大家可以根据具体情况自行设置

2、设置JVM重用

默认是1，表示一个JVM上最多可以顺序执行的task数目（属于同一个Job）是1。也就是说一个task启一个JVM。

显然，这样每次用一次就重启JVM很浪费时间，所以可以把这个的重用次数设置大一点，我这里设置成-1，表示无限适用，直到最后把程序跑完。

和设置Map数差不多，同样是在mapred-site.xml中设置，如下：

    mapred.job.reuse.jvm.num.tasks    -1

不用再次格式化，可以直接运行。现在，即使是伪分布，运行刚才的程序只需要11分30秒。

笔者将继续学习，找到更合理的办法。同时，可以把数据进行压缩过后在运行程序，但是笔者暂时还没搞懂这个方法怎么用。

参考网址：

http://blog.csdn.net/wangqiaoshi/article/details/18142885

http://jerrylead.iteye.com/blog/1195335

3、Java heap space的解决办法：

这个表明java的虚拟的空间不够了。下面有两种方法可以解决:

①修改hadoop/bin文件夹中的hadoop文件：

找到"export HADOOP_OPTS="这一行，修改如下：

 export HADOOP_OPTS="-Xmx4096m"//将jvm的空间设置为4GB，也可以设置成你想要的

②（建议使用此方法）也可以修改mapred-site.xml文件：

加入如下内容：

    mapred.child.java.opts    -Xmx4096m

保存退出重启hadoop即可。

4、修改HDFS的块的大小：

默认是64MB，但是一般用128MB，而且有些特殊情况要把块改小一点。总之，很多情况，需要更改块的大小，方法如下：

修改conf文件夹中hdfs-site.xml的内容，加入如下内容:

    dfs.block.size    自己想要的大小，单位是B

保存退出，格式化HDFS

以上是"Hadoop怎么优化"这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注行业资讯频道！

很赞哦！

文件内容运行数据程序大小情况文件夹方法格式篇文章办法只有空间笔者参考学习漫长特殊差不多数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全南通允之互联网科技有限公司鲲鹏服务器是哪个厂家关于网络安全知识试题教资报名服务器晚上会关闭吗 nba2k21服务器断开适合软件开发的人窗体如何打开数据库格林豪泰的数据库安全吗搞网络安全的事业单位成都软件开发人均产值酒店数据库需要的列名内蒙古科技大学数据库考试 yii2两个数据库伊利中国母乳研究数据库网络安全为人民心得体会公路运营安全管理数据库开封软件开发联系方式嵌入式软件开发计划表中石油独立软件开发商如何查看服务器信息中国互联网络安全 c 软件开发工程师 java图书数据库济南品君互联网科技符合某条件返回一行数据库数据库系统概论全书习题网络安全主题班会PPT高中 web和网络安全烟台市网络安全保障支队 dell d02t服务器电池

千家信息网

千家信息网

Hadoop怎么优化

WSFC时间分区场景实作

MacBook用户升级Windows 10 TH2后WiFi经常断开的示例分析

相关文章