导航：首页 > 互联网科技 >

如何使用Hive合并小文件

发表于：2024-11-12 作者：千家信息网编辑

千家信息网最后更新 2024年11月12日，如何使用Hive合并小文件，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。问题背景目前集群存于一个非常不健康的状态，主要问题是小文件太

千家信息网最后更新 2024年11月12日如何使用Hive合并小文件

如何使用Hive合并小文件，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

问题背景

目前集群存于一个非常不健康的状态，主要问题是小文件太多，单个DataNode的block数量阈值是500,000，而现在单个DataNode的block为2,631,218，约为阈值的5倍，现在所有DataNode都处于黄色不健康状态。

小文件问题会直接带来NameNode的压力巨大，从而导致HDFS的稳定性，同时对HDFS日常的数据读写带来性能下降。目前已可以看到集群的NameNode频繁出现检查点告警问题。

通过对集群中目前目录个数，文件大小，文件数量，Hive表数量，Hive数据库数量，Hive分区数量进行了详细的数据采集。发现主要是HDFS目录中的小文件太多，大量1KB的文件，甚至是小于1KB的文件;具体表现为：不论表与分区的数据量大小，当有分区时每个分区具有200个文件，当没有分区时每个表有200个文件，而许多表是小表，所以造成严重的小文件问题。

解决此问题的方法主要为两个方面；一是从源头解决小文件问题，在导数的过程中对作业进行优化，以减少小文件的输出，此方法需要业务方解决；二是合并平台上已有的小文件；本问描写合并平台小文件的方案。

原表情况

通过对集群内的文件数量以及文件大小进行分析，小文件问题基本出现在hive表中；经过近一步分析，发现每个分区存在着200个小文件，可以将这些文件合并减少小文件数量从而缓解小文件问题。

示例表test_part一共20行数据，以字段date_str为分区

共有五个分区

每个分区分别四个文件

执行流程

执行流程总体如下：

1、使用create table name like tb_name创建备用表，使得表结构保持一致；

2、配置支持merge等参数，并使用insert overwrite语句读取原表数据插入到备用表。

3、确认表数据一致后，删除原表，使用alter语句将备用表的表名修改为原表的表名。

方案描述

新建备表，表结构与原表保持一致

create table test_part_bak like test_part;

设置如下参数,使支持合并

SET hive.merge.mapfiles = true;
SET hive.merge.mapredfiles = true;
SET hive.merge.size.per.task = 256000000;
SET hive.merge.smallfiles.avgsize = 134217728;
SET hive.exec.compress.output = true;
SET parquet.compression = snappy;
SET hive.exec.dynamic.partition.mode = nonstrict;
SET hive.exec.dynamic.partition = true;

使用insert overwrite语句查询原表数据覆盖备表

insert overwrite table test_part_bak partition(date_str) select * from test_part;

备用表数据和原表一致

删除原表，将备用表表名修改为原表名

alter table test_part_bak rename to test_part;

合并后表数据没有变化

表结构一致

从HDFS文件系统可以看出，分区数量没有改变，每个分区的几个小文件已经合并为一个文件。

关于如何使用Hive合并小文件问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注行业资讯频道了解更多相关知识。

很赞哦！

文件问题数据数量一致备用大小结构语句集群分析健康单个参数平台方案方法更多流程状态数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全鹤壁高中网络安全活动数据库二维表知识点关于卫生局网络安全的总结模拟http服务器比亚迪汽车中控软件开发网络安全公司设计内网网段 vs服务器资源管理器创建数据库 vba语言怎么填数据库硬件服务器在商标的多少类别数据库中mdf和ndf 数据库的数字类型辽宁省网络安全工资待遇电商为什么要用云服务器最大的服务器徐州网站服务器服务商 mc狼人杀服务器中央网络安全局博雅数据库中南财经政法大学静安区技术网络技术品牌王者荣耀服务器列表数据库三层建模成立医院网络安全小组清除软件在服务器的使用记录珠海软件开发视频莆田java软件开发服务器固态硬盘安全性云服务器系统怎么回到珠海市智能模具制造管理软件开发数据库应用技术1256答案网络安全座谈会潍坊

千家信息网

千家信息网

如何使用Hive合并小文件

JDK和JRE的关系是什么

hadoop0.20.2伪分布式环境搭建

相关文章