千家信息网

对话偶数科技常雷:如何开启实时湖仓一体时代?

发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,企业业务越来越复杂多元,对数据处理能力的需求越来越高,当下实时分析场景越来越多。数据技术日新月异,纷繁复杂,利用合适的数据技术打造自己的实时分析能力非常重要。本期,我们有幸邀请到偶数科技创始人 & C
千家信息网最后更新 2024年11月11日对话偶数科技常雷:如何开启实时湖仓一体时代?

企业业务越来越复杂多元,对数据处理能力的需求越来越高,当下实时分析场景越来越多。数据技术日新月异,纷繁复杂,利用合适的数据技术打造自己的实时分析能力非常重要。

本期,我们有幸邀请到偶数科技创始人 & CEO 常雷博士,他指出现在数据湖和数仓的融合已是大势所趋,有迫切的需求,当下已经到了实时湖仓一体时代。他分享了实时湖仓的发展、建设路径和方法论。

此外,常雷也指出,这是技术创业最好的时代,也存在挑战。技术发展多年,现在突变的技术没有以前那么多。在突破力越来越少的情况下,大家都在做一些存量的竞争,这时候从商业层面其实蛮困难的,还是要从技术上做一些突破,来打破这样一个格局。他强调要坚持创新,不进则退。"要结合需求来看,别拿个锤子老找钉子,你根据钉子来造锤子。技术型创业的人最容易这样,强调技术产品贼牛,这是技术创业最大的一个坑。"

追问:我们为什么需要实时湖仓?

ITPUB:常雷博士,很高兴能采访到您,请您简单做个自我介绍。

常雷:我之前是北大博士数据库方向毕业,毕业之后就加入 EMC,曾任 EMC 高级研究员、EMC / Pivotal 研发部总监。

2010 年 EMC 收购 Greenplum,我在 EMC 带领研究团队做数据库内核的研发工作,结合 Greenplum 开发了新的产品 HAWQ,HAWQ 和 GP 早期是闭源产品,在 2015 年我们就把这两个产品全部开源了,HAWQ 后面成为了 Apache 的顶级项目。

看到了云时代的机遇,2016 年年,我带着团队出来创立了偶数科技,当时我们定位是想做新一代云原生的分析型数据库,慢慢地演进成现在的实时湖仓,就是把结构化数据、非结构化数据、半结构化数据,所有的数据都能够融合起来处理,架构上做云原生存算分离,把数据湖和数仓融合形成新一代数据平台。

ITPUB:打造新一代云原生分析型数据库,是不是对标 Snowflake?

常雷:其实我们对标国外的 Snowflake 和 Databricks 两家公司,Snowflake 做云原生数仓起家,是分析型数据仓库。Databricks 是做 Spark,早期定位是机器学习,后面做 Lakehouse(湖仓一体)。这两家公司,前者是从数据库角度出发,后者是 Hadoop 生态,从数据湖出发,现在都往湖仓一体融合发展,我们其实正好是两个都对标。GP 是一个分析型数据库,HAWQ 源于 GP,是 SQL on Hadoop 引擎,是 Hadoop 生态,我们从 HAWQ 出发,做云原生存算分离,演变到 OushuDB,又以 OushuDB 为基础,打造了 Skylab 实时湖仓数据平台。

以前都是有湖有仓,现在湖的能力比如说事务一致性、性能等等都在增强。仓之前只能做结构化数据,现在慢慢把流处理各方面的东西都给融进来。

我们已经扩大产品栈,有一套完整的产品矩阵,能为企业提供非常完整的数据分析产品栈,具有整体的数据分析的解决方案能力,像是一个航空母舰一样。

ITPUB:公司官网的介绍是开启实时湖仓一体时代,您看到的是怎样的一个时代?

常雷:数据库经过好几代的发展,其实脉络比较清晰,最早期是交易数据库,像 Oracle、DB2,交易数据库其实变化没有那么大,就是传统集中式到分布式的变化。

分析型数据库的架构变化比较大,这是需求场景变化使然,分析库从早期只能做一些统计报表,到后来数据量大了之后要处理大量的数据,在到做 BI。后来大数据时代,有各种不同类型的数据出来,数据量也很大,数据处理变得复杂,出现了 Hadoop 大数据平台。最近这几年,云计算兴起,湖和仓向着融合演进,变成了云原生湖仓一体。

湖仓一体概念是美国先提的,英文是 Lakehouse,湖仓一体只是说把湖和仓融合起来,减少了数据的孤岛。以前湖和仓是分开的,在湖和仓里面都要存数据,造成数据冗余,不是一份数据,使得开发成本、维护成本等提高,湖仓一体确实解决了一些问题,降低了客户的运营成本。

我们觉得只说湖仓一体还不够,从应用的场景来看,在分析方面,以前的 T +1 已经不能满足很多实时场景需求,T+0 实时场景越来越多,我们不仅要做湖仓一体,而且要针对实时场景,做一个新的技术架构,所以说我们提实时湖仓一体的时代,不仅强调技术架构,而是技术、应用场景的支持和融合。

市场上也有实时"数"仓的概念,和实时"湖"仓虽然差一个字,但是差别蛮大的。实时数仓处理结构化数据,实时湖仓是一个产品矩阵,实时湖仓包含了实时数仓,范围更大一些,会把企业各种各样的数据都管理起来。

ITPUB:实时数仓、实时湖仓核心就是实时性的需求,您觉得是如何发生的?

常雷:现在越来越多的实时场景出现,就是比如说实时大屏、实时报表、实时指标、实时推荐、反欺诈、风控、IoT 场景等,比如说一个用户在浏览商品,他要收到一些实时的推荐。

从业务场景的需求来看,传统的 T+1 已经支撑不了这种需求,大家对实时的需求已经很迫切了。

客户的 IT 能力越强,投入越大,业务做得越好,越讲究实时性。有些传统的企业技术方面做的比较弱一些,觉得现在好像不需要,业务这样还挺好,但实际上是数字化转型没有做好,业务提升空间还很大。

ITPUB:也许企业真的没有需要?

常雷:他不是没需要,而是他没想到他有需要,别人都已经做了,他就是跟随者。任何一个新场景、新业务或者新技术的发展,都会有一些创新的先行者,跟随者也挺多,跟随者其实是占大部分,创新者只占一小部分。

实时湖仓案例,我们做了很多头部客户,基本上每个行业的头部都有。我觉得技术随着业务场景在变化,往往是先有业务场景才有技术,有时候有了技术之后,会开拓一些以前不能做的业务场景。实时湖仓好像是需求和技术在齐头并进。一个是有需求,另外技术也在发展,走到了实时湖仓一体这样的一个时代。

ITPUB:具备哪些特性才能是真正的实时湖仓?

常雷:根据湖仓一体平台的本质,我们总结出了湖仓一体的六大特征 --ANCHOR,其中 6 个字母分别代表:All Disparate Data(多源异构数据)、Native on Cloud(云原生)、Consistency(数据一致性)、High Concurrency(超高并发)、One Data in Open Format(一份开放格式数据)、Realtime(实时 T+0)。ANCHOR 的中文意思是"锚",利用 ANCHOR 六大特性很容易判断出某一系统设计是否真正满足湖仓一体,"锚"定湖仓一体。

ITPUB:在实时性方面,有很多技术和概念,实时数仓、实时湖仓、流批一体、HTAP 数据库等,您觉得企业需要的是什么?偶数为什么会专门提实时湖仓?

常雷:这些概念其实都有一些自己的应用场景,比如 HTAP 的场景也有一些。在交易库里面,有时候要做一点小的分析查询,可能在分析场景里面有一点交易型场景,也能做。从现在的业务现状来看,大家说数据库的时候,场景基本都是分开建,银行 TP 和 AP 还是分着的,是完全不同的部门团队在做。

一般场景都是有侧重的,这个场景偏重于分析,那个场景偏重于交易,然后选用不同的产品,我们其实是偏重于分析型场景,也支持一些交易。有些数据库是偏交易型的数据库,也支持一点分析。但企业真的要采购分析平台的时候,没有人去找交易库,同样,如果选型交易库,也不会有人去选一个分析库,我觉得在实际项目中区分得很清楚的。

偶数为什么挑选实时湖仓,我觉得湖和仓融合是必须的,是未来所有人都要做的,并不是锦上添花的一个东西。分析场景将来都会走向实时湖仓平台,现在企业都在想着降本增效,实时湖仓能带来很大的价值。

ITPUB:关于实时场景,很多在谈在线、离线、近线,怎么理解实时?

常雷:Gartner 有个关于实时的定义,梳理得蛮清楚的。按照分析的时效可以分为战略决策、战术分析、业务运营和自动化处理,时效和分析频率越来越高。战略决策,比如企业收购、海外扩张,通常要做几个月到半年的分析;战术分析,比如细分市场的定价策略,通常要用几周到一个月的时间来分析;自动化处理,比如信用卡自动审批、股票的量化交易,通常是毫秒级,在一秒钟内完成;而业务运营夹在中间,从 1 秒钟到几天,跨度很大。

所以在业务运营场景中,就需要对实时有更加明确的要求。Gartner 认为 15 分钟内的算是实时和准实时范畴,根据我们的观察和实践,10 秒钟以内才能算是强实时,10 秒到 15 分钟的区间可以认为是准实时的。很多企业正在将传统的 T+1 报表升级为分钟级的准实时报表,在我看来,接下来完全可以做成强实时的交互式分析。

偶数做实时湖仓,是从离线到在线,从准实时到强实时,全部覆盖,我们提出叫做全实时,也是按需实时的理念,全实时通过 Omega 技术架构来支持。

ITPUB:不同的企业对实时湖仓的需求有哪些共性和差异?

常雷:同一个行业基本上共性是比较强的,对产品的需求基本上都类似。但对创新型的需求,不同规模的企业差别比较大,大型企业的业务场景相对复杂,技术创新能力比较强,像稍微大型的银行在创新方面比中小银行要强很多,新的实时场景往往是他们在率先尝试,然后中小银行才会跟进。

实践:企业如何构建实时湖仓?

ITPUB:企业是如何构建实时湖仓的?

常雷:根据现状的一些不同,企业会采取不同的方式来构建,大致分为三类。

第一类,以前信息化做得比较弱,可能分析场景基本上没做,或者他觉得以前的太落后了,只做了一个传统的 ODS,新的大数据平台也没上,这是往往采取新建模式。

第二类,以前的 IT 基础栈比较全,可能有湖,也有仓,还有数据集市。基于现有的 IT 建设,向实时湖仓升级换代。比如你的存储是 HDFS,我可以利用你的原有存储,使用我们的计算层,加上偶数的一些实时存储,使得架构向实时湖仓转型。

第三类,以前有传统的数仓,但没有 Hadoop 大数据平台,这种情况可以把数仓先升级成云原生存算分离的架构,先把 OushuDB 用起来。其他新应用场景再引入新的组件,慢慢形成实时湖仓平台。

所以基本上是三条路径,新建、从湖转型实时湖仓,或从数仓转型到实时湖仓。

我们遇到新建的比较多一些,新建一个平台,硬件还可以重用,应用场景逐步迁移,并不是新建完之后一下全部迁移。对客户来说,新建相对比较简单,因为新建不会涉及重大历史包袱。如果此前有大量业务在跑,改造相对来说耗时较长,需要几个月或者半年的时间,我们尽量让企业在短期内看到价值,增加他的信心。

ITPUB:能否分享一些项目建设的方法论?

常雷:结合偶数在数据平台项目建设的长期探索和经验总结,提炼出了偶数湖仓一体建设方法论。这个方法论主要包括规划(Planning)、实施(Implementation)、运营(Operation)三个子过程,三者先后衔接并形成闭环;战略(Strategy)是一个或有子过程,一般适用新建湖仓数据平台场景,或者特殊建设背景下行业客户的特别要求。

偶数湖仓一体方法论逻辑视图

偶数湖仓一体建设方法论,既能兼容传统数据仓库的实施方法,又能规避过往数据湖落地过程中的一些弊端;既考虑众多企业已建数据平台多年的现实情况,又吸收近年数据相关技术快速变化演进的前瞻趋势。

ITPUB:企业在构建实时湖仓的时候,你觉得有哪些需要注意的地方?

常雷:在湖仓一体正式立项之前,我们建议客户从行业实施经验、项目实施周期、平台总体成本三个要素来考虑湖仓一体的项目规划,进行总体设计、分步实施。通俗讲,就是团队要找好,产品要选好,项目要实施好。偶数的方法论还给出了在立项阶段的几点避坑建议,以及项目实施过程中的重要抓手,大家可以关注我们即将发布的关于湖仓一体建设方法的书。

展望:AIGC 时代的实时数据技术以及技术创业

ITPUB:AIGC 时代,大模型等 AI 技术对数据技术带来了哪些影响?

常雷:我觉得大模型的兴起对我们是一个重大利好。因为大模型降低了大家使用数据的门槛,可以用自然语言使用数据,而以前使用数据往往需要学习复杂的产品和查询语法。

AIGC 使得数据栈变得更加简单易用了,比如可以自动生成 SQL,将来设计模型、数据治理也可以自动,用自然语言驱动。所以大模型对行业影响很大,只不过现在这种垂直场景还没有非常好的落地。

大模型现在属于一个比较前沿的探索阶段,基本上还是做一些比较通用的基础场景,针对一些垂直场景,还有很长的路要走,任重道远。

ITPUB:很多人就说现在是一个对技术创业者来说比较好的一个时代,作为一个技术创业者,您如何迎接挑战,把握机遇?

常雷:现在对技术创业者确实是最好的时代,你真的想把一个事情做深做透做好,没有技术创新很困难。但是技术创业者也有局限,通常对业务逻辑和需求等方面了解要少一点,也是个挑战。

技术已经发展这么多年,现在突破性的技术没有以前那么多。在突破越来越少的情况下,如果大家都做存量的竞争,这从商业层面其实还是蛮困难的,所以还是要从技术上做一些突破,来打破这样的格局,技术创业还是很重要的。

例如,在三年之前我们讲实时湖仓的时候,大家还在犹豫观望,现在基本上已经形成共识了。我们希望这些企业用好实时湖仓,真正实现业务的降本增效。

ITPUB:现在市场有那么多类似的产品,怎么看行业的竞争?

常雷:这就和当年的百团、千团大战一样。一个新的技术出来之后,一定会有一批公司来做,这是很正常的,市场竞争一定越来越激烈。但是否能笑到最后,那就看战略、技术、产品,谁做得最好。

其实数据技术的发展是非常快的,现在大概每过 10-15 年左右就会有新一代平台出现,很多厂商一不小心可能就落后了,可能就被淘汰了。

所以你永远要把握住自己的创新,永远不要把创新放下,别以为产品比较稳定了,就觉得可以满足需求了,不需要创新了。不做创新就会被淘汰,只不过有的行业可能对创新的要求更高一些,变化更快一些,有的行业创新稍微慢一点,但仍然需要握住机遇和创新。交易库稍微简单一点,它发展慢一点,但做大数据相关的发展变化就尤为明显,真的是日新月异,我经历了过去三代平台,现在已经发展到第四代云原生存算分离了。

创业是不进则退。我们一直在创新演变,刚开始我们做云原生数据仓库,是分析型数据库,现在我们变成实时湖仓,以分析型数据库为核心,形成了一套产品矩阵,这几年我们一直在不断迭代前行。

ITPUB:现在都在讲融合,数据技术的大融合,像以前的按键手机、MP3、照相机全融合成一个智能手机一样。

常雷:Oracle 很早就已经讲融合了,Oracle 对各种数据场景都支持,比如图数据,时序数据等等,所以融合不是个新概念。

现在到处都在提融合,我觉得有些部分融合是可以的。但所有东西都融合在一起一定是有问题的,让一个人干所有的事情,什么事情都可以干,但是干的肯定不是所有事情都是最好的,要有侧重点。

企业的诉求是你解决了什么问题,到底带来多少价值,比如有实时场景的问题要解决。比如湖和仓,为什么要融合到一起?你要说清楚价值,然后再讨论融不融合。客户的视角是解决问题带来价值。技术人的角度,可能是你看我啥都能做,我技术很牛,这个视角是不可取的。

要结合需求来看,别总拿个锤子找钉子,要根据钉子来造锤子。

ITPUB:对于从业者而言,您能不能给他们一些建议,如何跟上技术迭代的节奏?

常雷:针对从业者,我觉得新的技术要紧跟,大的趋势要紧跟,国内新的趋势是新一代数据库产品、是实时湖仓,千万不要故步自封。现在知识和技术更新迭代的速度很快,一定要注意武装好自己。比如说我们现在推出一些课程,我觉得像这种新技术的培训分享,传统的 DBA 应该去学习,等到以后别人都掌握了,那你就很危险。

0