数据上云,应该选择全量抽取还是增量抽取?
发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,作者:向师富 转自:阿里巴巴数据中台官网 https://dp.alibaba.com 概述数据抽取是指从源数据抽取所需要的数据, 是构建数据中台的第一步。 数据源一般是关系型数据库,近几年,随着移动
千家信息网最后更新 2024年11月11日数据上云,应该选择全量抽取还是增量抽取?作者:向师富 转自:阿里巴巴数据中台官网 https://dp.alibaba.com 概述数据抽取是指从源数据抽取所需要的数据, 是构建数据中台的第一步。 数据源一般是关系型数据库,近几年,随着移动互联网的蓬勃发展,出现了其他类型的数据源,典型的如网站浏览日期、APP浏览日志、IoT设备日志 从技术实现方式来讲,从关系型数据库获取数据,可以细分为全量抽取、增量抽取2种方式,两种方法分别适用于不用的业务场景 增量抽取
数据库维护时间戳MySQL可以自动实现变更字段的维护,一定程度上减轻了开发工作量。 具体的实现样例如下: 创建记录
最终的结果如下:
更新记录
最终的结果如下,数据库自动变更了时间戳字段:
解析binlog日志,给数据同步带来了新的方法,将解析之后结果发送到Hive/MaxCompute等大数据平台,实现秒级延时的数据同步。 解析binlog日志增量同步方式技术很先进,有3个非常大的优点: 1.数据延时小。在阿里巴巴双11场景,在巨大的数据量之下,可以做到秒级延时; 2.不丢失数据,可以捕获数据delete的情形; 3.对业务表无额外要求,可以缺少时间戳字段; 当然,这种同步方式也有些缺点: 1.技术门槛很高。一般公司的技术储备不够,不足以自行完成整个系统搭建。目前国内也仅限于头部的互联网公司、大型的国企、央企。不过随着云计算的快速发展,在阿里云上开放了工具、服务,可以直接实现实时同步,经典的组合是MySQL、DTS、Datahub、MaxCompute; 2.资源成本比较高,要求有一个系统实时接收业务库的binlog日志,一直处于运行状态,占用资源较多 3.业务表中需要有主键,以便进行数据排序
原则上,在数据上云这个环节,建议只进行数据镜像同步。不进行业务相关的数据转换工作。从ETL策略转变为ELT,出发点有3个: 1.机器成本。在库外进行转换,需要额外的机器,带来新的成本; 2.沟通成本。 业务系统的开发人员,也是数据中台的用户,这些技术人员对原始的业务库表很熟悉,如果进行了额外的转换,他们需要额外的学习其他工具、产品; 3.执行效率。库外的转换机器性能,一般会低于MaxCompute、Hadoop集群,增加了执行时间; 同步过程中,建议全表所有字段上云,减少后期变更成本
原文链接 本文为云栖社区原创内容,未经允许不得转载。
- 时间戳方式
数据库维护时间戳MySQL可以自动实现变更字段的维护,一定程度上减轻了开发工作量。 具体的实现样例如下: 创建记录
最终的结果如下:
更新记录
最终的结果如下,数据库自动变更了时间戳字段:
- 分析MySQL binlog日志
解析binlog日志,给数据同步带来了新的方法,将解析之后结果发送到Hive/MaxCompute等大数据平台,实现秒级延时的数据同步。 解析binlog日志增量同步方式技术很先进,有3个非常大的优点: 1.数据延时小。在阿里巴巴双11场景,在巨大的数据量之下,可以做到秒级延时; 2.不丢失数据,可以捕获数据delete的情形; 3.对业务表无额外要求,可以缺少时间戳字段; 当然,这种同步方式也有些缺点: 1.技术门槛很高。一般公司的技术储备不够,不足以自行完成整个系统搭建。目前国内也仅限于头部的互联网公司、大型的国企、央企。不过随着云计算的快速发展,在阿里云上开放了工具、服务,可以直接实现实时同步,经典的组合是MySQL、DTS、Datahub、MaxCompute; 2.资源成本比较高,要求有一个系统实时接收业务库的binlog日志,一直处于运行状态,占用资源较多 3.业务表中需要有主键,以便进行数据排序
- 分析Oracle Redo Log日志
- 同步架构图 从业务视角,可以将离线数据表同步细分为4个场景,总体架构图表如下:
原则上,在数据上云这个环节,建议只进行数据镜像同步。不进行业务相关的数据转换工作。从ETL策略转变为ELT,出发点有3个: 1.机器成本。在库外进行转换,需要额外的机器,带来新的成本; 2.沟通成本。 业务系统的开发人员,也是数据中台的用户,这些技术人员对原始的业务库表很熟悉,如果进行了额外的转换,他们需要额外的学习其他工具、产品; 3.执行效率。库外的转换机器性能,一般会低于MaxCompute、Hadoop集群,增加了执行时间; 同步过程中,建议全表所有字段上云,减少后期变更成本
- 小数据量表 来源数据每日全量更新,采用数据库直连方式全量抽取,写入每日/每月全量分区表。
- 日志型表 原始日志增量抽取到每日增量表,按天增量存储。因为日志数据表现为只会有新增不会有修改的情况,因此不需要保存全量表。
- 大数据量表 数据库直连方式通过业务时间戳抽取增量数据到今日增量分区表,再将今日增量分区表merge前一日全量分区表,写入今日全量分区表。
- 小时/分钟增量表/不定期全量 来源数据更新频率较高,达到分钟/小时级别,从源数据库通过时间戳抽取增量数据到小时/分钟增量分区表,将N个小时/分钟增量分区表merge入每日增量分区表,再将今日增量分区表merge前一日全量分区表,写入今日全量分区表。
原文链接 本文为云栖社区原创内容,未经允许不得转载。
数据
业务
增量
抽取
时间
同步
数据库
日志
阿里
分区表
字段
系统
巴巴
方式
阿里巴巴
状态
更新
场景
成本
技术
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发提升计划
软件开发三大类
里番收藏夹服务器被攻击
西部数码云服务器怎么安装系统
ue4服务器多进程共享内存
discuz论坛 数据库
量子网络技术是哪国发明的
服务器芯片股
四大数据库是啥
公用网络安全不
关注网络安全班会流程
网络安全就是网络上的安全
中华人民网络安全法的日期
太原的计算机网络技术学校
威海市网络安全应急支撑
描述使用数据库的场景
俄罗斯网络安全组织
网络安全简介课程
江苏盛斗士网络技术有限公司
网络安全工作主要是
里番收藏夹服务器被攻击
奇偶数据库
其他国家网络安全计划
数据库怎么表示所有学生学号
济南市信息网络安全与维护
机械行业的软件开发
筑牢网络安全防线ppt
互动墙软件开发
软件开发公司销售招聘信息
网络安全吗真的假的