千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 服务器 >

hadoop层面性能如何调优

发表于：2024-11-24 作者：千家信息网编辑

千家信息网最后更新 2024年11月24日，这篇文章主要为大家展示了"hadoop层面性能如何调优"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"hadoop层面性能如何调优"这篇文章吧。hadoop

千家信息网最后更新 2024年11月24日hadoop层面性能如何调优

这篇文章主要为大家展示了"hadoop层面性能如何调优"，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下"hadoop层面性能如何调优"这篇文章吧。

hadoop 层面性能调优

1. 守护进行内存调优

a）NameNode 和 DataNode 内存调整在 hadoop-env.sh 文件中

NameNode： ExportHADOOP_NAMENODE_OPTS="-Xmx512m-Xms512m -Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS"

DataNode：

export HADOOP_DATANODE_OPTS="-Xmx256m -Xms256m -Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTS"

-Xmx -Xms 这两个参数一般保持一致，以避免每次垃圾回收完成后 JVM 重新分配内存。

b）REsourceManager 和 NodeManager 内存调整在 yarn-env.sh 文件中

REsourceManager：

export YARN_RESOURCEMANAGER_HEAPSIZE=1000 默认 export YARN_RESOURCEMANAGER_OPTS="..........."可以覆盖上面的值

NodeManager：

export YARN_NODEMANAGER_HEAPSIZE=1000 默认export YARN_NODEMANAGER_OPTS="";可以覆盖上面的值

常驻内存经验配置：

namenode:16G

datanode:2-4G

ResourceManager:4G
NodeManager:2G

Zookeeper：4G

Hive Server：2G

2. mr中间目录要配置多个，分散IO 压力

http://hadoop.apache.org/docs/r2.6.0/

配置文件yarn-default.xml 分散 IO 压力

yarn.nodemanager.local-dirs

yarn.nodemanager.log-dirs

配置文件 mapred-default.xml：

mapreduce.cluster.local.dir

配置文件 hdfs-default.xml：提高可靠性

dfs.namenode.name.dir
dfs.namenode.edits.dir

dfs.datanode.data.dir

3. mr中间结果要压缩

a）配置 mapred-site.xml 文件中配置

mapreduce.map.output.compress

true

mapreduce.map.output.compress.codec

org.apache.hadoop.io.compress.SnappyCodec

程序运行时指定参数 hadoop jar /home/hadoop/tv/tv.jar MediaIndex -Dmapreduce.compress.map.output=true -Dmapreduce.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec /tvdata /media

b）使用合理的压缩算法（cpu 和磁盘） cpu：如果是 cpu 的瓶颈，可以更换速度快的压缩算法磁盘：如果是磁盘的瓶颈，可以更换压缩力度大的压缩算法一般情况我们使用 snappy 压缩，比较均衡 lzo

4. hdfs文件系统中避免，大量小文件存在

5. 根据具体情况，在 Map 节点使用 Combiner，减少输出结果

6. 重用 Writable 类型

比如声明一个对象 Text word = new Text(); map(),reduce()方法里面重用

7. 根据集群节点具体情况，调整 task 的并行度

设置 map 和 reduce 最大任务个数：

mapreduce.tasktracker.map.tasks.maximum

mapreduce.tasktracker.reduce.tasks.maximum

配置文件 mapred-default.xml：

设置 map 和 reduce 单个任务内存大小：

mapreduce.map.memory.mb 1G 默认

mapreduce.reduce.memory.mb 1G 默认

8. 要有效的监控手段(使用nmon，条件允许会部署ganglia搜集各种指标，分析指标发现瓶颈，然后指定措施)

硬件层面性能调优：

机架分开，节点均匀放置

操作系统层面性能调优：

多个网卡：多网卡绑定，做负载均衡或者主备

磁盘：多个磁盘挂载到不同目录下，存放数据做计算的磁盘不要做 raid

集群规划：

集群节点内存分配：

比如一个数据节点，假如 task 并行度为 8 DataNode（2~4G）+ NodeManager（2G）+Zookeeper（4G）+1G（单个任务默认大小）*8=16G~18G

集群规模：假如每天数据 1T 数据保存一个月，每个节点硬盘 2T 1T*3(副本)*30（天）=90T=n*2T*（60~70%） n=60 节点左右企业中数据保留 7 天 15 天比较常见，数据比较重要的话 1 个月

以上是"hadoop层面性能如何调优"这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注行业资讯频道！

文件配置内存节点层面性能数据磁盘集群任务内容多个情况瓶颈算法篇文章调整均衡单个压力数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全数据库怎么显示页面关闭电子邮件服务器匿名转发功能重庆新华电脑学校云软件开发计笄机网络技术 mt4服务器搭建北京影视软件开发软件开发中的的qc新方法社招去银行做软件开发视频聊天软件开发哪家公司好 mysql数据库不能被访问上海上门网络技术质量推荐熔火之心服务器怎么样交换机连接4个服务器网吧网络安全责任制小学网络安全宣传周活动资料学习网络技术学费宸通网络技术有限公司官网单位网络安全监控服务器管理地址默认地址不支持截词检索技术的数据库维修协议网络安全通化云服务器存储网络安全巡视员数据库table设计书窗体数据库考题广州银行软件开发怎么样临沧创建网站java软件开发软件开发怎么算资产推荐国产服务器我的世界安全服务器地址

相关文章