千家信息网

腾讯朱华:数据中心下一个风向的探索

发表于:2024-11-24 作者:千家信息网编辑
千家信息网最后更新 2024年11月24日,导读:朱华,腾讯数据中心技术发展中心总监,中国工程建设标准化协会数据中心技术委员会副主任委员,中国通信标准化协会开放数据中心委员会数据中心工作组组长,荣获中国工程建设标准化协会颁发的2018数据中心青
千家信息网最后更新 2024年11月24日腾讯朱华:数据中心下一个风向的探索

导读:朱华,腾讯数据中心技术发展中心总监,中国工程建设标准化协会数据中心技术委员会副主任委员,中国通信标准化协会开放数据中心委员会数据中心工作组组长,荣获中国工程建设标准化协会颁发的2018数据中心青年科技人才奖。11月30日,朱华在2018数据中心年度峰会上发表了演讲,以下为演讲内容。




谈起数据中心下一个风向的探索,我想借此回顾过往这十年,腾讯数据中心对技术发展的探索历史。


一.腾讯数据中心十年技术探索史

1.一石多鸟的高压直流

2008年到2010年,为了解决电力转换效能的问题,我们在盐城电信赵老师实验室的基础上,发起了240V高压直流替代UPS的技术架构改造项目。这是一个重构低压配电架构的过程。起初我们步履维艰,而如今BAT已经有数百万服务器运行在这个配电架构上了。

有意思的是,原本我们意在节能,结果获得更大收益的是运维的便利性和运行的可靠性。纵观整个行业,所有使用这个配电架构的数据中心,从未因高压直流出现严重问题而影响业务,反观UPS配电架构,故障频出,经常导致业务损失惨重。

2.初尝标准化和产品化的甜头--微模块

2011年到2012年,我们完善微模块的架构,解决了IT模块内的标准化和部分结构产品化问题。微模块改变了原先IT模块内的工程做法,颠覆了以往数据中心的建设分工界面和模式,甚至打破了产业原先的格局。到如今,每年微模块的产量为约为5000套。

3.万法归宗的诺曼底模型

到了2013年,腾讯的在青浦和深汕开展大规模数据中心建设,需要规范大型(10-15万服务器规模)数据中心规划设计的方法论。因此我们发起了一个代号"诺曼底模型"的探索项目。这个方法论,就是一套逻辑算法。它解决了一个最重要的问题--解释每个数据中心建设需求的逻辑,让需求提得明白,让设计院画图画得明白,让总包建设得明白,让运营方接管得明白。所有项目从建筑到机电建设都是一个统一标准。这样也就让甲方、设计院、总包、验收方等所有相关方理解一致,方向一致,把数据中心当成一个标准的工业品而不是一个独特的艺术孤品。

4.制冷设备要去水化、去工程化、产品化,更要本土化

早期腾讯在天津尝试了airside freecooling的技术,这个技术在美国较为成熟,但是到了中国却表现出水土不服:空气中的有害物质直接进入机房,损耗了IT设备。怎样才能既充分利用外界的冷量,同时又不让IT设备直接暴露在外?2015年我们在贵阳实验室引进了中国第一套来自德国GEA的空空换热的制冷设备,并对其做了适应中国的技术改造,从而大获成功。这种技术交换热量而非交换物质--它通过工程高分子材料或者金属材料,使内部空气和外部空气进行热量交换,但是气体却是隔离的。如今,这种设备已经完全可由中国制造,在效率上不输于进口产品,成本却是完全折半的。行业已经大规模应用,整个产业链也已兴起。这种技术的探索成功,收获远不止节能本身。由于这种间接制冷的方式是去水化、去工程化的,所以它放弃了大型的水冷机组,也就是去掉了错综复杂管路工程。我们的制冷设备终于走上产品化的道路!

5.数据中心整体标准化和产品化的产物:T-block

实现制冷设备的产品化,让我们有机会探索数据中心整体产品化。2016年我们推出了T-block技术,设计了制冷方仓、IT方仓、电力方仓、中压方仓,整个产业链也随之跟进。至此,数据中心能够以完全产品化的方式进行建设和交付。

6.诺曼底模型再进化-- Tbase模型

2018年,为配合全国的拿地大规模自建,我们将"诺曼底模型"方法论进化为新的大型和超大型园区的建设方法论--"Tbase模型",以应对30万服务器及以上规模的数据中心规划和设计。




这十年的探索,我们一直坚持走模块化、标准化、产品化的道路。这是一个渐进的过程,也伴随着产业链的跟进和培养。重构传统的架构、颠覆传统的建设方式的路上充满着不为人道的艰辛。


二.腾讯数据中心技术发展未来探索方向

1.人工智能时代对数据存储、计算、运输的更高要求

至此,在硬件层面,我们似乎已经到了一个自我突破的瓶颈和天花板,其实不然。数据中心作为基础服务工业,会面临一个新的发展时期--万物互联的人工智能时代。以往这些年,热度极高的云计算、大数据、物联网的发展,其实都是为了这个万物互联的人工智能时代做了嫁衣,为这个时代的横空出世奠定了基础。

人工智能的实现,依存于几个基础条件:①海量的存储能力②更先进的算法③大容量、大带宽的通信信道。大数据作为人工智能的原始依据,云计算进行高能计算和存储,物联网提供无所不在的数据采集场景,5G以极低时延的进行高速传送。

2.春江水暖鸭先知--互联网巨头迎战新时代

最近阿里和腾讯的组织架构调整,从名字上都能看出端倪:阿里新成立的BG名字后面加了"智能"。而腾讯云调整后,BG名字加上了"智慧产业"。自此云不再是独立的存在,而是带着应用场景的存在。应用场景是做增量,而过往我们大部分是做存量。存量意味着对原有IT的关停并转,伴随着大量改造和迁移的艰难困苦。过程量终究是过程量,成败之关键在落地的产业。

3.数据中心管理软件发展的阶段:从门面、辅助管理转向生产管理

面临新的机遇,数据中心作为一个行业的分支,实现万物互联的人工智能数据中心,需要软硬两手。硬件已经准备得七七八八了,那么软件呢?数据中心,我们真正的需要什么样的智能大脑?无人值守和人工智能的平台,需要具备哪些先决条件以及能够落地的场景?这是我们需要探索和实践的下一个方向。

在这里,先回顾一下以往的发展情况。我罗列了数据中心管理软件平台发展的三个阶段,总结来看,过往发展得很艰苦。


第一个阶段是在2000-2010年,这时候的典型代表产品,就是动环以及机房3D呈现,市场的总价值在1-10个亿。我们的甲方也没有重视这一块,从常用的招投标模式就可以看出,这通常是放在总包里一带而过。厂商们更注重以酷炫的3D视觉效果去挣得甲方的眼球,并无实用。这段时期,我归纳为"门面系统阶段"。


第二个阶段,2011-至今,这个时期的典型代表产品,就比较丰富。DCOM、DCIM、DCSM、DCRM开始从设备、人、流程的角度去把控信息,并且以数据和报表呈现,去进行设备健康管理、资产管理、简单的成本和容量管理。市场的总价值在10-50亿。甲方也开始独立地准备技术规格书,独立分包和招投标。这段时期,我归纳为"辅助管理系统阶段"。


第三个阶段,就是我们大家需要一起去探索和努力达到的,结合数据中心的硬件产品,它的市场的价值或可超过1000亿。这个时期,我把它归纳为"生产管理系统阶段"。它将再一次颠覆运维的大部分模式、习惯以及组织分工界面。少人值守、无人值守、人工智能将数据中心的运维管理系统提升到生产管理系统,其重要性不可同日而语。




4.整装待发的产业链

产业链对于新时代到来的准备充分吗?首先我们来看各种传感器的准备情况:这个时代,我们需要大量的便于部署的传感器,来当我们的眼睛和耳朵,我们需要无线且无源的,大家看,从测温、测速、测噪音、测定位、测污染以及热成像,甚至各种控制器、执行机构都应有尽有,产业已经张开怀抱迎接我们的探索和革新了。

5.无人值守的应用场景:安保、巡检、设备的监与控

① 安保:

这里我们简单列举几个人工智能无人值守的应用场景:我们从人力比较密集的安保人员开始,向科技要人力,减少安防人员眼看、手摸、跑腿等工作。事前,我们使用安防安保机器人,大量部署高清视频摄像头,通过主动监控防御,提前划定监控区域,界定重要物品监控列表,对火灾重点防范区域进行布控。事中,我们通过算法对人的行为进行预判,对可疑人员、可疑物资进行预警。事后,我们可以快速分析和提取数据。有着人工智能的机器人,比人更可靠,比人更吃苦耐劳而不知疲倦和躲懒。这一个场景的应用,我们的目标是在超大型园区减少一半的安保人员配备。




② 巡检:除安保外,人工智能的应用可以取代部分日常巡检的工作,这些带着各种传感能力的机器人可以在日常巡检中实时传递视频、声音、味道,这些信息传输到后台与基础设施原先的采集数据进行比对和有益补充。这个场景的应用,我们的目标是减配基础设施巡检人员近三成。


③ 设备的监与控:实现无人值守,需要大量的自动化执行机构,这是我们重点强化的区域。最近,我考察了很多的设备厂家,对于电力的自控,我们现在可以使用电操,操控列头柜的开关,使其能够按照我们的指令执行机柜的开关电。在演练或者大面积故障时,从中压侧一直到低压侧,从柴油发电机到机柜都可以做到远程自动执行。

实现无人值守和人工智能,有一个特别切题的应用场景,这就是制冷自动控制场景。在间接制冷产品化后,空调去水了,从原先异常复杂繁多的控制器件,简化到数十个控制器件,大大降低了自控和智能的门槛。我们可以根据不同地域、不同场地,优化我们的算法,实现精细化管理,把制冷的状况调整的最优,实现节能和稳定的运维环境。这是一个重点,同时也是我们探索的关键。


针对设备监控管理,我这里列举一个电池健康管理的案例。众所周知,数据中心里所有的设备可以分为三个大类,一个是化学类,一个是电子类,一个是机械类。化学类的是最容易也是最快进入故障高发阶段的,而且化学类的设备一旦出现故障是最要命的。而对电池的设备健康管理是最典型的对"化学类"设备的管理。我们采集电池的电压、内阻、温度三个状态量,20秒一次,一天就是一万多条数据,一年就是差不多5百万条数据。一条数据是个点,一系列数据就是线,我们现在监测近10万个电池,那就是一个异常庞大的数据立面。这个时候,我们可以不用人为的经验来判断,可以颠覆原先的因果关系,直接凭借这个立体的海量数据来判断这个电池是否存在异常,是否要更换。平台可以直接发出处理的指令,防患于未然。


《黄帝内经》说道:"是故圣人不治已病治未病,不治已乱治未乱。"面对海量巨型复杂的数据中心,现在的人类的科学人工智能的方式,正是体现了这种事前管理,消除隐患于未然的古人思想之精髓。

0