千家信息网

记一次hadoop大数据导出

发表于:2025-02-04 作者:千家信息网编辑
千家信息网最后更新 2025年02月04日,需求:导出一个月数据提供测试分析实施:直接hive -e "xxxxx"> testdata.txt然后看输出信息,map%1 %2 %3...... 0,但是reduce一直是0%,等啊等,等了十几
千家信息网最后更新 2025年02月04日记一次hadoop大数据导出

需求:导出一个月数据提供测试分析

实施:

直接hive -e "xxxxx"> testdata.txt

然后看输出信息,map%1 %2 %3...... 0,但是reduce一直是0%,等啊等,等了十几个小时,还是0%,最后杀掉进程,再试了几次,现象一样,可知每次等十几个小时,一转眼,两天了。

于是怀疑集群有问题,排查了好久,没发现问题。

又怀疑where条件有问题,折腾了半天还是一样。

后来加上了limit先看看有没有结果,有的话就证明语法没错;果然limit 10很快就出来了10条记录,语法正确。

又接着换了spark去提取,总是报buffer不足,加到原来10倍,还提示不足。

难道数据这么大?

准备count一下,等等等,一个月总共2亿8千万多条,mygod!!!我错了

于是先用hive导出一天的数据,等等等,重定性写文件就写了20分钟,我心想这得有多少啊,等写完了用wc -l 一看,800多万条,文件大小4G,哦哦哦,顿时明白了,不是集群问题,是因为数据太多reduce执行很慢。

最后,估算了每条约是600B,然后每天取1000条,连续取7天,最后文件大小约4MB

命令如下:

hive -e "set hive.cli.print.header=true;use dw;select * from aem where day ='2015-08-24' limit 1000" > aem_pg_8_24_30.txt

hive -e "use dw;select * from aem where day ='2015-08-25' limit 1000" >> aem_pg_8_24_30.txt

hive -e "use dw;select * from aem where day ='2015-08-26' limit 1000" >> aem_pg_8_24_30.txt

hive -e "use dw;select * from aem where day ='2015-08-27' limit 1000" >> aem_pg_8_24_30.txt

hive -e "use dw;select * from aem where day ='2015-08-28' limit 1000" >> aem_pg_8_24_30.txt

hive -e "use dw;select * from aem where day ='2015-08-29' limit 1000" >> aem_pg_8_24_30.txt

hive -e "use dw;select * from aem where day ='2015-08-30' limit 1000" >> aem_pg_8_24_30.txt


收获:

大数据处理的思路要稍微不同。首先估算数据量,这个很重要;然后确定导出方式,太大的话缩小颗粒度,多次导出。

思路很重要!思路很重要!思路很重要!

数据 重要 思路 问题 文件 大小 小时 语法 还是 集群 不同 万条 信息 命令 多条 完了 很快 数据处理 方式 条件 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 全国计算机三级网络技术点 机场数据库aodb价格 战地五服务器名字怎么输入中文 萤石云服务器无法上网 无线网络安全设置怎么设置最安全 数据库运维技能图谱 流媒体服务器可以与nvr连接吗 东丽区互联网软件开发诚信经营 网络安全法什么时候开始及实施 北京时尚天创网络技术 软件开发whs质量管控 韩国有没有软件开发 外汇交易中心国产数据库 浙江广东网络安全培训要怎么学 数据库相关的安全技术 萝岗正规的网络数据库维护 平度ios软件开发公司有哪些 网络安全保护分级的意义 网络安全和财产安全的关系 用友t3数据库连接设置 县市网络安全应急演练科目 联通宽带哪种服务器好 ie中设置代理服务器 oracle只导出数据库对象 上位机软件开发论文 usdabase数据库 ftp是服务器吗 邮件大小超出服务器限制怎么办 工控网络安全怎么加强 环保科技 软件开发
0