导航：首页 > 互联网科技 >

0003-如何在CDH中使用LZO压缩

发表于：2024-11-24 作者：千家信息网编辑

千家信息网最后更新 2024年11月24日，温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。1.问题描述CDH中默认不支持Lzo压缩编码，需要下载额外的Parcel包，才能让Hadoop相关组件如HDFS，Hive，Spark支持

千家信息网最后更新 2024年11月24日0003-如何在CDH中使用LZO压缩

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

1.问题描述

CDH中默认不支持Lzo压缩编码，需要下载额外的Parcel包，才能让Hadoop相关组件如HDFS，Hive，Spark支持Lzo编码。

具体请参考：

https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_mc\_gpl\_extras.html

https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_ig\_install\_gpl\_extras.html#xd\_583c10bfdbd326ba-3ca24a24-13d80143249--7ec6

首先我在没做额外配置的情况下，生成Lzo文件并读取。我们在Hive中创建两张表，test_table和test_table2，test_table是文本文件的表，test_table2是Lzo压缩编码的表。如下：

create external table test_table(s1 string,s2 string)row format delimited fields terminated by '#'location '/lilei/test_table'; insert into test_table values('1','a'),('2','b'); create external table test_table2(s1 string,s2 string)row format delimited fields terminated by '#'location '/lilei/test_table2';

通过beeline访问Hive并执行上面命令：

查询test_table中的数据：

将test_table中的数据插入到test_table2，并设置输出文件为lzo压缩：

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true;set mapreduce.output.fileoutputformat.compress.type=BLOCK; insert overwrite table test_table2 select * from test_table;

在Hive中执行报错如下：

Error:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

通过Yarn的8088可以发现是因为找不到Lzo压缩编码：

Compression codec com.hadoop.compression.lzo.LzoCodec was not found.

2.解决办法

通过Cloudera Manager的Parcel页面配置Lzo的Parcel包地址：

注意：如果集群无法访问公网，需要提前下载好Parcel包并发布到httpd

下载->分配->激活

配置HDFS的压缩编码加入Lzo：

com.hadoop.compression.lzo.LzoCodeccom.hadoop.compression.lzo.LzopCodec

保存更改，部署客户端配置，重启整个集群。

等待重启成功：

再次插入数据到test_table2，设置为Lzo编码格式：

set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec;set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true;set mapreduce.output.fileoutputformat.compress.type=BLOCK; insert overwrite table test_table2 select * from test_table;

插入成功：

2.1 Hive验证

首先确认test_table2中的文件为Lzo格式：

在Hive的beeline中进行测试：

Hive基于Lzo压缩文件运行正常。

2.2 Spark SQL验证

var textFile=sc.textFile("hdfs://ip-172-31-8-141:8020/lilei/test_table2/000000_0.lzo_deflate") textFile.count() sqlContext.sql("select * from test_table2")

SparkSQL基于Lzo压缩文件运行正常。

醉酒鞭名马，少年多浮夸！岭南浣溪沙，呕吐酒肆下！挚友不肯放，数据玩的花！

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

很赞哦！

文件编码数据配置成功温馨图片手机格式集群高清无码提示支持运行验证再次办法命令地址数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全网络安全的3个基本属性和平区信息网络技术答疑解惑云锡职业学院网络安全知识竞赛软件开发人员职业素养北京软件开发培训学费 oracle 数据库空间什么大学软件开发专业最好程序数据库有什么作用数据库安全性笔记学校组织观看网络安全视频简讯什么数据库不能支持sql 服务器cpu多线程变卡任县软件开发 win11数据库打开慢手游云顶都有哪些服务器中国风景公路数据库下载河南焦皮网络技术有限公司数据库怎么查询整点数据绿茶服务器管理乡镇网络安全自查整改工作报告维普是国内数据库吗中国期刊全文数据库是什么广州市梦享网络技术李鹤数据库技术与应用杨金民 .net初级软件开发面试题自己从事软件开发行业软件开发项目计划书标题如何将文件传到服务器绿茶服务器管理网络安全手抄报简图

千家信息网

千家信息网

0003-如何在CDH中使用LZO压缩

2.1 Hive验证

jquery如何禁用下拉框

Java正则表达式提取字符的方法

相关文章