hive的典型应用场景
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,案例一:需求:现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数。数据:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01
千家信息网最后更新 2025年01月31日hive的典型应用场景
案例一:
需求:现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数。
数据:
用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11
最终结果:
用户 月份 最大访问次数 总访问次数 当月访问次数A 2015-01 33 33 33A 2015-02 33 43 10A 2015-03 38 81 38B 2015-01 30 30 30B 2015-02 30 45 15B 2015-03 44 89 44
解决:
#step01 统计每个用户每月的总访问次数create view view_step01 as select name,month,sum(visitCount) total from t_user group by name,month;#step02 (自连接,连接条件为name)create view view_step02 as select t1.name aname,t1.month amonth,t1.total atotal,t2.name bname,t2.month bmonth,t2.total btotal from view_step01 t1 join view_step01 t2 on t1.name =t2.name #step03 去除无用数据,每组找到小于等于自己月份的数据select bname,bmonth,max(btotal),sum(btotal),btotalfrom view_step02where unix_timestamp(amonth,'yyyy-MM')>=unix_timestamp(bmoth,'yyyy-MM')group by aname,amonth,atotal;
案例二:
#建表语句:
CREATE TABLE `course` ( `id` int(11) NOT NULL AUTO_INCREMENT PRIMARY KEY, `sid` int(11) DEFAULT NULL, `course` varchar(255) DEFAULT NULL, `score` int(11) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8;#插入数据INSERT INTO `course` VALUES (1, 1, 'yuwen', 43);INSERT INTO `course` VALUES (2, 1, 'shuxue', 55);INSERT INTO `course` VALUES (3, 2, 'yuwen', 77);INSERT INTO `course` VALUES (4, 2, 'shuxue', 88);INSERT INTO `course` VALUES (5, 3, 'yuwen', 98);INSERT INTO `course` VALUES (6, 3, 'shuxue', 65);
需求:所有数学课程成绩 大于 语文课程成绩的学生的学号
解决:(行列转换)
SELECT t1.sid FROM (SELECT sid, max( CASE `course` WHEN "yuwen" THEN score ELSE 0 END ) AS "yuwen", max( CASE `course` WHEN "shuxue" THEN score ELSE 0 END ) AS "shuxue" FROM `course` GROUP BY sid ) t1 WHERE t1.yuwen < t1.shuxue;
案例三:
需求:比如:2010012325表示在2010年01月23日的气温为25度。现在要求使用hive,计算每一年出现过的最大气温的日期+温度。
数据:
年 温度
20140101 14
20140102 16
20140103 17
20140104 10
20140105 06
20120106 09
20120107 32
20120108 12
20120109 19
20120110 23
20010101 16
20010102 12
20010103 10
20010104 11
20010105 29
20130106 19
20130107 22
20130108 12
20130109 29
20130110 23
20080101 05
现在需要根据年月进行group by 但是最终的结果需要是20080101 05,也就是说,分组字段和最后保留的字段不相同,这时怎么办?
解决:
#Step1:CREATE VIEW view_step1 AS SELECTsubstr( tmp, 1, 4 ) AS YEAR,max( substr( tmp, 9, 2 ) ) AS tmp FROM tmp GROUP BY substr( tmp, 1, 4 );#Step2:SELECT b.tmp, a.tmp FROM view_step1 a JOIN tmp b ON a.YEAR = substr( b.tmp, 1, 4 ) AND a.tmp = substr( b.tmp, 9, 2 );
案例四:
数据
#表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门:id course 1,a 1,b 1,c 1,e 2,a 2,c 2,d 2,f 3,a 3,b 3,c 3,e
需求:编写Hive的HQL语句来实现以下结果:表中的1表示选修,表中的0表示未选修。
解决(方案1):
#行列转换select id max(case when course='a' then 1 else 0 and ) as a ,max(case when course='b' then 1 else 0 and ) as b ,max(case when course='c' then 1 else 0 and ) as c ,max(case when course='d' then 1 else 0 and ) as d ,max(case when course='e' then 1 else 0 and ) as e ,max(case when course='f' then 1 else 0 and ) as ffrom course group by id;
解决(方案2):
#collect_set函数#step01create view id_courses as select a.course acourse,b.course bcourse,b.id id(select collect_set(course) as course from course) a join (selecet id ,colect_set(course) as course from course group by id) b#step02select id,case when array_contains(bcourse,acourse[0]) then 1 else 0 end as a ,case when array_contains(bcourse,acourse[1]) then 1 else 0 end as b ,case when array_contains(bcourse,acourse[2]) then 1 else 0 end as c ,case when array_contains(bcourse,acourse[3]) then 1 else 0 end as d ,case when array_contains(bcourse,acourse[4]) then 1 else 0 end as e ,case when array_contains(bcourse,acourse[5]) then 1 else 0 end as ffrom id_courses;
数据
次数
案例
用户
需求
最大
月份
结果
课程
字段
学生
成绩
方案
气温
温度
行列
语句
相同
也就是
也就是说
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
重点岗位网络安全协议
网络技术应用课程内容标准
双色球数据库监测
网络安全采访领导提纲
互联网科技金融上市了吗
数据库同步技术 代码
2021年国家网络安全在哪举行
分布式数据库安全框架研究
linux服务器发包教程
网络技术实务案例
app软件开发使用什么架构
网络安全企业50强
金蝶如何删除数据库表
基本数据库类型有哪些
数据库原理与应用英语怎么说
大学网络安全教育培训制度
倩女幽魂什么服务器好
我的世界服务器极限模式怎么关闭
unity本地数据库
福建省关于软件开发企业
咸宁网络安全课程
国家网络安全宣传话术
浙江参考软件开发销售价格
备选dns服务器地址河南联通
保定数据库应用服务
360 剽窃 数据库
联想服务器管理器
获取c怎么连接数据库
服务器端口监控软件
我的世界如何退出服务器中的游戏