千家信息网

如何攻克数据库应用头号难题?数位产学研大咖这样解读

发表于:2024-11-22 作者:千家信息网编辑
千家信息网最后更新 2024年11月22日,摘要: 中国最强数据库学术会议来袭!在NDBC大会期间,达摩院数据库与存储实验室联合中国计算机学会(CCF)数据库专业委员会,举办了首届产业数据库研发论坛。产学研的思想碰撞,见证"阿里力量"10月12
千家信息网最后更新 2024年11月22日如何攻克数据库应用头号难题?数位产学研大咖这样解读

摘要: 中国最强数据库学术会议来袭!在NDBC大会期间,达摩院数据库与存储实验室联合中国计算机学会(CCF)数据库专业委员会,举办了首届产业数据库研发论坛。产学研的思想碰撞,见证"阿里力量"

10月12日-14日,一年一度的中国数据库领域最高学术会议--NDBC 2018如期在大连举行。在这场代表了国内数据库领域最强实力的学术盛宴上,阿里巴巴不但集结了强大的参会阵容,由阿里巴巴集团副总裁、达摩院科学家、数据库与存储技术负责人李飞飞博士(花名:飞刀)亲自带队。此外,在NDBC大会期间,达摩院数据库与存储实验室还联合中国计算机学会(CCF)数据库专业委员会,举办了首届产业数据库研发论坛。论坛力邀知名企业技术负责人及学界专家,共同探讨国内数据库的产学研生态,为数据库的长期发展作出原创性贡献。

依托NDBC平台,产业数据库研发论坛是一次学术界和工业界的双向数据库技术沙龙,皆在拉近数据库学术研究和新兴互联网业务需求之间的距离,以实际场景与数据库顶级学者交流,寻求系统层级的前沿技术突破,搭建企业与高校之间学术合作的桥梁。

▲ 论坛现场座无虚席

论坛受到了学术界和产业界人士的极大欢迎,诸多业界大咖与行业精英共聚一堂,现场座无虚席。李飞飞博士在会上阐述了阿里对于产学研共建的思考,以开放的态度,带动全行业以更紧密的连结健康发展,展现了阿里作为行业领头公司的胸怀和气魄。

▲ 阿里巴巴集团副总裁、达摩院科学家、数据库与存储技术负责人李飞飞博士

李飞飞表示:"数据库系统是核心的基础软件设施,经过多年的发展,形成了一个成熟完善的商业市场和生态圈,全球市场达到400亿美金规模。近年来云计算和大数据市场的蓬勃发展为数据库系统这个相对传统的领域带来了前所未有的新机遇,数据库系统需要适应云原生带来的挑战,以及大规模全球化分布式部署的挑战。

除此之外,各类型新硬件和机器学习/人工智能技术的快速发展,也要求数据库系统深入推进软硬件一体化设计和智能化运维与内核优化等新兴技术的应用。最后,数据库安全是另外一个重要的课题,如何实现高效的加密数据库系统以及对数据隐私的保护是尚待解决的问题。解决这些挑战和问题需要学术界和产业界深度合作,从实际应用和系统需求出发来发现并攻克核心难题,帮助大规模工程化实现和商业化部署。

这次研讨会借助NDBC这个平台,带来一个难得机遇让国内产业界和学术界的核心代表共聚一堂,深入探讨如何更好的合作和交流。大家也就当前数据库系统所面临的热点问题进行了深入的探索和碰撞,成果显著。产业论坛会在以后每年的NDBC会议上坚持举办下去,大家相信这个论坛一定会对中国数据库产业和科研事业的发展产生长久而深远的影响。"

来自阿里巴巴、华为、东软集团和华东师范大学的资深技术负责人依次带来精彩演讲,分享了各自面临的业务挑战、应对的技术和解决方案,共话数据库前沿技术与发展趋势,探讨产学研合作如何推进应用落地。

云原生数据库POLARDB:自研黑科技 释放卓越性能

▲ 阿里巴巴高级技术专家张友东

阿里巴巴高级技术专家张友东(花名:林青)介绍, POLARDB 是阿里云自研的关系型数据库,采用计算与存储分离的架构,计算节点轻量易扩展,能在秒级完成备节点扩展; 存储平台化,支持最大100TB的存储。POLARDB采用多项黑科技来保证高性能,包括用户态网络协议栈,用户态存储协议栈,高速RDMA网络,NVMe SSD,Optane新存储硬件等,POLARDB满足了云上用户对大容量、高性能、可弹性伸缩数据库服务的需求。

阿里云数据库团队为 POLARDB 定制了低延时、高可靠的分布式文件系统 PolarFS,PolarFS的研究成果已发表在数据库顶级会议 VLDB 2018 《PolarFS: An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database》;基于 PolarFS 共享存储平台,POLARDB 重新设计了存储引擎,基于共享存储做物理复制,极大的降低了 POLARDB IO开销,读写性能相比MySQL有数倍的性能提升;最后,POLARDB 100% 兼容MySQL生态,同时融入到现有的云产品生态,使得用户接入无需做业务改造,使用成本极低,目前POLARDB已经开始在阿里云上服务了数百家企业。

未来 POLARDB 还会做更多的数据库技术创新,覆盖更多的云上数据库应用场景,为用户创造更大的价值。

POLARDB X (Powered By X-DB):全局全域 追求极致

▲ 阿里巴巴数据库事业部资深技术专家何登成

阿里作为全球最大的在线交易平台,当下的业务体量非常庞大,需要进行在线事务处理的数据规模在PB量级,在双十一当天,需要处理的SQL请求甚至达到每秒一亿次。阿里巴巴数据库事业部资深技术专家何登成(花名:圭多)表示:"为了处理如此庞大的数据量和事务处理能力,我们研发了分布式关系型数据库POLARDB X (Powered By X-DB),采用shared-nothing架构,对用户透明的数据sharding机制。使用优化实现的paxos协议保证数据副本间的一致性,在跨地域部署下也能保证高性能。为了避免单点失效,使用去中心化的HLC机制实现分布式事务。"

据悉,POLARDB X还分析了电商业务的访问特点,为此专门设计了基于访问频度的冷热数据分层的存储架构,更好的利用存储硬件本身的层次。此外,还利用一系列软硬结合的技术,比如异构计算硬件FPGA来处理计算密集型的后台任务。POLARDB X力求在性能和成本上同时达到极致,不远的将来会推动上云,为云上用户提供更好的数据库服务。

SolarDB:学术界与工业界智慧碰撞的结晶

▲ 华东师范大学数据科学与工程学院教授、副院长周烜老师

SolarDB是一个由华东师范大学、西北工业大学、上海交通银行联合开发的,并且在工业界得到实际应用的数据库系统。SolarDB从开源的OB 0.4版本作为基础,历经多年发展,已经在交通银行落地,并在很多场景下替换了原有的DB2数据库。它采用shared-everything架构,由存储节点(s-node),事务节点(t-node)和计算节点(p-node)组成,其中s-node和p-node可以横向扩展,而t-node是单节点用于事务处理,这个架构设计在扩展性和复杂性之间找到了很好的平衡。华东师范大学数据科学与工程学院,教授、副院长周烜老师表示:"在高校里做一个能够实际应用的数据库系统非常不易,但是我们一直在坚持做。未来的挑战也很多,比如:分布式系统的质量保障,如何兼容商业数据库等等,都是值得我们去思考的问题。"

SolarDB是学术界和工业界合作研发的数据库系统,凝聚了华师大师生在数据库技术发展的思考,并且经过实际业务场景的不断磨练,已经日渐成熟稳定,将发展地越来越好。

纵观上述三款OLTP数据库,在架构、应用场景和技术思考方面各不相同:

架构不同:POLARDB(shared-disk),POLARDB X(shared-nothing),SolarDB(shared-everything)
应用场景不同:POLARDB(云计算),POLARDB X(大规模互联网应用),SolarDB(金融业务)
技术思考不同:POLARDB(云原生、弹性伸缩,100%兼容开源生态,性价比,新硬件),POLARDB X(高性能、低成本,全球部署),SolarDB(扩展性和复杂性的平衡)
虽然OLTP数据库是数据库技术领域最成熟、最传统的一部分,我们看到学术界和产业界在OLTP领域依然有非常多的思考和进展,令人欣喜。

▲ 华为高斯数据库团队首席产品规划师李思昊

来自华为高斯数据库团队的首席产品规划师李思昊系统介绍了华为公司多年来在数据库领域的投入及产业布局。华为在2005年开始投入内存数据库系统的研发,主要用来支持电信计费业务,其可以实现百万QPS、单次处理微秒内响应,近年来不断扩展其内存数据库产品架构,支持分布式以及数据持久化能力,向通用型产品发展,具备更高扩展能力。

华为同时在2012年开始构建分布式分析型数据库产品,采用MPP架构,引入 codegen 等新的编译技术,实现业界领先的分析型能,同时构筑在线扩容,升级等关键技术,实现系统高可用。其实现国内主要银行的数据仓库系统从传统厂商Teradata数据库向其产品的全面迁移,同时在国内外也具备一定市场规模。

▲ 东软集团系统架构师于明光

来自东软集团的系统架构师于明光分享了机器数据的实时洞察与模式识别。系统对不同客户环境提出规范,实现了可自控的数据采集,同时用聚类方法使数据可用。于明光指出低频事件间的关联和高频事件在数据挖掘上有很大区别。在即席查询的场景下,于明光提出半结构化数据查询上,SQL这样的结构化查询语言不是最优的选择,并提出领域专用语言DSL。他强调,上述技术未来可以扩展到更多更广泛的领域,将大有可为。
OLAP 数据库的技术变革、演进和挑战

▲ 阿里巴巴集团数据库事业部研究员占超群

企业数据的爆炸式增长为扩大分析策略在企业应用软件领域的拓展提供了数据基础,然而由此所带来的挑战也是前所未有的,那么应该如何针对海量数据提供实时在线的灵活处理以及开放的数据分析?阿里巴巴集团数据库事业部研究员占超群(花名:离哲)就此介绍了阿里巴巴在大规模实时在线分析系统方面构建的经验和未来的技术趋势展望,重点聚焦在阿里巴巴集团下一代分析数据库产品AnalyticDB,AnalyticDB是阿里巴巴最早的自研商业级数据库产品之一,也是最早商业化的自研数据库产品,其支撑阿里集团的电商、广告、蚂蚁、菜鸟、文娱等众多在线数据分析业务;以及为阿里云上传统的大中型企业,政府机构,众多的互联网创新公司的提供核心的实时分析能力。

AnalyticDB单DB支持2千台以上的物理节点, 10PB以上的数据存储管理, 以及高并发低延时分析,帮助业务进入下一代分析和极速探索。其采用分层解耦架构,引进了智能SQL优化器,超大规模的分布式MPP+DAG融合分析计算引擎,支持行列混合存储,智能构建多维度索引以及GPU硬件加速等技术,同时融入了文本、图片、人脸等非结构化数据分析支持,大幅扩展技术边界和业务边界。

伴随着这些年在线分析业务的发展,AnalyticDB在时效性、在线化、复杂度、智能化、可用性和成本上不断创新发展,做了大量的技术难点突破和创新。通过将数据分析在线化、实时化,帮助用户发挥数据价值,AnalyticDB已经成长为能够改变用户数据使用方式、行业内领先的商业级数据库产品。

▲ 圆桌讨论:共话产学研结合现状和发展趋势
(左起:张友东、占超群、何登成、于明光、周烜、李思昊)

在最后的圆桌会议上,参加论坛的老师、同学与分享嘉宾热烈交流,共同探讨阿里巴巴POLARDB X (Powered By X-DB)、POLARDB、分析型数据库AnalyticDB以及华为高斯数据库的建设经验与技术难点。嘉宾们对云计算多租户解决方案、数据库高可用方案、数据行列分层存储、多模数据库的优势等技术问题做了详细的分享。论坛同时探讨了高校如何能够将研发的系统应用到企业的核心系统,在学生正常流动下保证持续发展,周烜老师详细分享了华师大研发SolarDB数据库并在交通银行的成功建设经验。

▲ NDBC 2018--阿里巴巴参会阵容合影

本届产业数据库研发论坛不仅是展现企业自身科研实力与分享成果的重要舞台,体现了中国数据库产业在研发和应用方面的最高水平,同时面向未来,为企业与学术界搭建了合作的桥梁,积极推动产学研合作共同体的构建,共建数据库产业合作生态。
一直以来,阿里巴巴都非常注重与学术界的合作,用户的需求推动了技术的一次次更新迭代,让工业界和学术界的关系更进一步。学术界和工业界在数据库领域各有所长,阿里巴巴未来将持续深耕科研领域,将学术研究和应用实践有机结合,积极拓展与学术界的合作,推动产学研一体化,用技术驱动我国数据库事业的发展。

同时在本届NDBC会议上,来自阿里巴巴的张瑞、占超群和李朝三位资深数据库技术人成功当选了新一届中国计算机学会的数据库专业委员会委员,未来将代表阿里巴巴为数据库技术的发展贡献更多力量。至此,阿里巴巴已经有七名专委。

随着NDBC产业数据库研发论坛的举办以及更多工业界技术人加入CCF中国数据库专委会,必将更进一步推动产学研一体化和中国数据库技术产业的发展,带领数据库人砥砺前行。

0