导航：首页 > 服务器 >

hdfs如何实现数据压缩

发表于：2024-11-19 作者：千家信息网编辑

千家信息网最后更新 2024年11月19日，这篇文章主要介绍hdfs如何实现数据压缩，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！公司一共不到30台的hadoop集群，hdfs大小共有120T，最近监控老是报警，磁盘不足

千家信息网最后更新 2024年11月19日hdfs如何实现数据压缩

这篇文章主要介绍hdfs如何实现数据压缩，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

公司一共不到30台的hadoop集群，hdfs大小共有120T，最近监控老是报警，磁盘不足（低于5%时候报警），之前一直忙于业务，没时间整理集群，整理之后发现现有文件一共在34T左右，加上3份冗余，整个hdfs占用在103T，之前清洗的时候直接是文本存入，且没有进行任何压缩，这块儿应该会有很大的优化空间。其中有一份记录用户手机安装应用的日志文件占用在5T左右，先拿他下手。

因为hive有三种文件存储格式，TEXTFILE、SEQUENCEFILE、RCFILE，其中前两个是基于行存储，RCFile是Hive推出的一种专门面向列的数据格式。它遵循"先按列划分，再垂直划分"的设计理念，当查询过程中，针对它并不关心的列时，它会在IO上跳过这些列，所以选择RCFILE，再用Gzip压缩。

之间还犯了一个比较2的错误：因为之前有同事调研过rcfile（已离职），所以用show create table XX的方式查看建表语句，发现是

CREATE EXTERNAL TABLE XX(  ......  )PARTITIONED BY (   day int)ROW FORMAT DELIMITED   FIELDS TERMINATED BY '\t'   COLLECTION ITEMS TERMINATED BY ','   LINES TERMINATED BY '\n' STORED AS INPUTFORMAT   'org.apache.hadoop.hive.ql.io.RCFileInputFormat' OUTPUTFORMAT   'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'LOCATION  '/user/hive/data/XX';

就照搬改一下字段，建了一张app_install的RCFile表，sql导入之前的数据

set mapred.job.priority=VERY_HIGH;set hive.merge.mapredfiles=true;set hive.merge.smallfiles.avgsize=200000000;set hive.exec.compress.output=true;set mapred.output.compress=true;  set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; set mapred.job.name=app_install.$_DAY;insert overwrite table app_install1 PARTITION (day=$_DAY)select XXX from tb1 where day=$_DAY

报错，查看hadoop运行日志，发现是

FATAL ExecReducer: java.lang.UnsupportedOperationException: Currently the writer can only accept BytesRefArrayWritableat org.apache.hadoop.hive.ql.io.RCFile$Writer.append(RCFile.java:880)at org.apache.hadoop.hive.ql.io.RCFileOutputFormat$2.write(RCFileOutputFormat.java:140)at org.apache.hadoop.hive.ql.exec.FileSinkOperator.processOp(FileSinkOperator.java:588)at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:471)at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:762)at org.apache.hadoop.hive.ql.exec.SelectOperator.processOp(SelectOperator.java:84)at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:471)at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:762)at org.apache.hadoop.hive.ql.exec.CommonJoinOperator.createForwardJoinObject(CommonJoinOperator.java:389)at org.apache.hadoop.hive.ql.exec.CommonJoinOperator.genObject(CommonJoinOperator.java:715)at org.apache.hadoop.hive.ql.exec.CommonJoinOperator.genObject(CommonJoinOperator.java:697)at org.apache.hadoop.hive.ql.exec.CommonJoinOperator.genObject(CommonJoinOperator.java:697)at org.apache.hadoop.hive.ql.exec.CommonJoinOperator.checkAndGenObject(CommonJoinOperator.java:856)at org.apache.hadoop.hive.ql.exec.JoinOperator.endGroup(JoinOperator.java:265)at org.apache.hadoop.hive.ql.exec.ExecReducer.reduce(ExecReducer.java:198)at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:519)at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:420)at org.apache.hadoop.mapred.Child$4.run(Child.java:255)at javax.security.auth.Subject.doAs(Subject.java:396)at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)at org.apache.hadoop.mapred.Child.main(Child.java:249)

网上说是hive的一个bug，一直以为就是这个bug，折腾了一天，最后试着按照网上的方式修改了一下建表语句

REATE EXTERNAL TABLE XX(  ......  )PARTITIONED BY (   day int)ROW FORMAT DELIMITED   FIELDS TERMINATED BY '\t'   COLLECTION ITEMS TERMINATED BY ','   LINES TERMINATED BY '\n' STORED AS RCFILELOCATION  '/user/hive/data/XX';

结果正常运行，然后用show create table XX查看语句发现又变成了

STORED AS INPUTFORMAT   'org.apache.hadoop.hive.ql.io.RCFileInputFormat' OUTPUTFORMAT   'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'

郁闷死了，就是建表语句然后用show create table显示的不一样导致，虽然是个小问题，但是也颇费经历。

以上是"hdfs如何实现数据压缩"这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注行业资讯频道！

很赞哦！

数据语句文件内容就是方式日志时候格式篇文章集群存储报警运行很大郁闷业务两个之间价值数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全山海战记服务器 js静态化调取数据库网络安全软件公司排名网络技术如何二道区有名的网络技术服务哪家好论文需要在学校数据库查重吗诺岚软件开发工作室干什么服务器系统还能启动吗互联网加科技图片大全 c把excel导入数据库数据库在安全领域的应用 ps4更换服务器福州服务器服务网络安全措施和策略网络安全和信息化服务中心地下城频道喇叭怎么换服务器喇叭河湖和水利工程管理范围数据库对网络安全存在问题的看法云服务器无理由退款宝山区媒体数据库服务商清单游戏服务器后端开发面试题我的世界服务器发布互联网科技富豪排名厦门定制软件开发多少费用网络安全文化节邀请函神州泰岳网络安全网络技术学生做什么软件开发的投资及分析明日之后个服务器昆仑传说服务器

千家信息网

千家信息网

hdfs如何实现数据压缩

不用重装就能解决压缩Vista系统文件夹导致崩溃情况的办法有哪些

帝国cms实现当前栏目高亮的方法

相关文章