hive 中的拉链表 1
发表于:2024-11-18 作者:千家信息网编辑
千家信息网最后更新 2024年11月18日,hive中拉链表在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。拉链表适用于以下几种情况吧数据量有点大,表中某些字段有变化,但是呢变化的频率也
千家信息网最后更新 2024年11月18日hive 中的拉链表 1
hive中拉链表
在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。
拉链表适用于以下几种情况吧
数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实,
不仅浪费了存储空间,有时可能业务统计也有点麻烦,这时,拉链表的作用就提现出来了,既节省空间,又满足了需求。
一般在数仓中通过增加begin_date,en_date来表示,如下例,后两列是start_date和end_date.
12345678910 | 1 2016-08-20 2016-08-20 创建 2016-08-20 2016-08-20 1 2016-08-20 2016-08-21 支付 2016-08-21 2016-08-21 1 2016-08-20 2016-08-22 完成 2016-08-22 9999-12-31 2 2016-08-20 2016-08-20 创建 2016-08-20 2016-08-20 2 2016-08-20 2016-08-21 完成 2016-08-21 9999-12-31 3 2016-08-20 2016-08-20 创建 2016-08-20 2016-08-21 3 2016-08-20 2016-08-22 支付 2016-08-22 9999-12-31 4 2016-08-21 2016-08-21 创建 2016-08-21 2016-08-21 4 2016-08-21 2016-08-22 支付 2016-08-22 9999-12-31 5 2016-08-22 2016-08-22 创建 2016-08-22 9999-12-31 |
begin_date表示该条记录的生命周期开始时间,end_date表示该条记录的生命周期结束时间;
end_date = '9999-12-31'表示该条记录目前处于有效状态;
如果查询当前所有有效的记录,则select * from order_his where dw_end_date = '9999-12-31′
如果查询2016-08-21的历史快照,则select * from order_his where begin_date <= '2016-08-21′ and end_date >= '2016-08-21'
再简单介绍一下拉链表的更新:
假设以天为维度,以每天的最后一个状态为当天的最终状态。
以一张订单表为例,如下是原始数据,每天的订单状态明细
12345678910 | 1 2016-08-20 2016-08-20 创建 2 2016-08-20 2016-08-20 创建 3 2016-08-20 2016-08-20 创建 1 2016-08-20 2016-08-21 支付 2 2016-08-20 2016-08-21 完成 4 2016-08-21 2016-08-21 创建 1 2016-08-20 2016-08-22 完成 3 2016-08-20 2016-08-22 支付 4 2016-08-21 2016-08-22 支付 5 2016-08-22 2016-08-22 创建 |
根据拉链表我们希望得到的是
12345678910 | 1 2016-08-20 2016-08-20 创建 2016-08-20 2016-08-20 1 2016-08-20 2016-08-21 支付 2016-08-21 2016-08-21 1 2016-08-20 2016-08-22 完成 2016-08-22 9999-12-31 2 2016-08-20 2016-08-20 创建 2016-08-20 2016-08-20 2 2016-08-20 2016-08-21 完成 2016-08-21 9999-12-31 3 2016-08-20 2016-08-20 创建 2016-08-20 2016-08-21 3 2016-08-20 2016-08-22 支付 2016-08-22 9999-12-31 4 2016-08-21 2016-08-21 创建 2016-08-21 2016-08-21 4 2016-08-21 2016-08-22 支付 2016-08-22 9999-12-31 5 2016-08-22 2016-08-22 创建 2016-08-22 9999-12-31 |
可以看出 1,2,3,4每个订单的状态都有,并且也能统计到当前的有效状态。
状态
支付
拉链
有效
情况
空间
订单
变化
统计
业务
历史
周期
数据
时间
生命
需求
查询
原始
明细
作用
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全的保护方法
戴尔服务器屏幕拉出来推不回去了
昱澄信息网络安全
论述网络安全的防与治
惠普公司服务器
网络安全2.0发布
大华矩阵服务器初始网址
甲骨文自制数据库技术
天地劫龙绝捍卫服务器
莫纳什网络安全回国
和工作站有哪些品牌服务器
软件开发费多少算高
oracle数据库属
银行网络技术人员
阿里云服务器租赁如何列支
武汉找软件开发公司
sql 是什么数据库系统
采取什么措施保证数据库安全
湖北戴尔服务器定制
电信软件开发外包
香肠派对电脑怎么改服务器
软件开发服务费入什么科目6
学院网络安全规章制度
汽车制造商经销商共用数据库
数据上传云服务器
城市令网络安全吗
大连网络安全印证服务平台
无人机网络技术怎么学
大米云服务器和阿里云
检测是数据库是否存在索引