导航：首页 > 互联网科技 >

hive sql 优化数据倾斜

发表于：2025-02-01 作者：千家信息网编辑

千家信息网最后更新 2025年02月01日，此脚本运行速度慢，主要是reduce端数据倾斜导致的，了解到dw.fct_traffic_navpage_path_detl表是用来收集用户点击数据的，那么最终购物车和下单的点击肯定极少，所以此表or

千家信息网最后更新 2025年02月01日hive sql 优化数据倾斜

此脚本运行速度慢，主要是reduce端数据倾斜导致的，了解到dw.fct_traffic_navpage_path_detl表是用来收集用户点击数据的，那么最终

购物车和下单的点击肯定极少，所以此表ordr_code字段为空和cart_prod_id字段为NULL的数据量极大，如下所示：

select ordr_code,count(*) as a from dw.fct_traffic_navpage_path_detl where ds = '2015-05-10' group by ordr_code having a>10000 ;

151722135

select cart_prod_id,count(*) as a fromdw.fct_traffic_navpage_path_detl where ds = '2015-05-10' groupby cart_prod_id having a>10000 ;

NULL 127233335

对于create table tmp_lifan_trfc_tpa as 这句SQL，BI加上如下配置，

set hive.mapjoin.smalltable.filesize = 120000000; //因为 dw.univ_parnt_tranx_comb_detl表最大不超过120MB，如果是hive on tez要用hive.auto.convert.join.noconditionaltask.size ，这样tez会生成BROADCAST

sethive.auto.convert.join=true;

同时修改SQL如下语句：

from dw.fct_traffic_navpage_path_detl t

left outer join dw.univ_parnt_tranx_comb_detl o //用mapjoin解决数据倾斜

on t.ordr_code = o.parnt_ordr_code

and t.cart_prod_id = o.comb_prod_id

and o.ds = '2015-05-10'

left outer join bic.cust_first_ordr_tranx f

on case when o.end_user_id is null then cast(rand(9)*100as bigint) else o.end_user_id end = f.end_user_id //join后数倾斜用随机数避免倾斜，红色为修改部分

and f.first_ordr_date_id = '2015-05-10'

where t.ds = '2015-05-10';

运行后SQL可以在可控时间内完成。

很赞哦！

数据字段运行最大同时时间用户红色脚本语句购物车速度部分随机数生成肯定购物配置数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全软件开发专业刚毕业汕头市明际软件开发有限公司软件开发作品简介网络安全大赛比赛时间银行网络安全征文800字民警开展网络安全宣传服务器里面装软件网络安全主要义务是什么速达数据库自定义转账宿州安卓软件开发外包公司厦门网络安全实战培训靠谱数据库技术的认识中兴的软件开发是干什么的最终幻想服务器繁忙七日杀服务器管理员指令农村网络安全责任田禾多云力互联网科技有限公司娱网科道网络技术有限公司 java界面数据库阿里服务器ip地址汕头安卓软件开发咨询 vb调用mysql数据库自己笔记本怎么做服务器怎样创建自己的方舟服务器作业类型主数据库网络安全管理员工作总结关于我们植物数据库关于网络安全的标识评估网络安全防护水平曙光服务器能安装win10吗

千家信息网

千家信息网

hive sql 优化数据倾斜

为何在调用delete[]时括号中不需要指明元素的个数

区块链之Hyperledger Fabric v1.2 的环境如何搭建

相关文章

hive sql 优化 数据倾斜

为何在调用delete[]时括号中不需要指明元素的个数

区块链之Hyperledger Fabric v1.2 的环境如何搭建

相关文章

hive sql 优化数据倾斜