AI落地遭“卡脖子”困境:为什么说联邦学习是解决良方?
作者 | Just
出品 | AI科技大本营(ID:rgznai100)
毋庸置疑,在业界对人工智能(AI)应用落地备受期待的时期,数据这一重要支点却越来越成为一个"卡脖子"的难题。
AI落地需要数据来优化模型效果,但大部分企业不会轻易把数据无条件提供给AI公司使用,因为数据某种程度上是它们赖以生存的底牌,这也导致少数巨头公司垄断大量数据,而小公司很难获得数据的局面,另一方面,由于法律法规对数据隐私保护的规定,数据融合难上加难。数据孤岛问题似乎成了无法解开的死结,人工智能落地进程严重受阻。
此时,Google 于 2016 年提出的联邦学习(Federated Learning)技术开始在业内被寄予厚望,国内以微众银行、平安科技、百度为代表的公司成为新技术的"尝鲜者",希望它成为打通数据孤岛的桥梁。
Google 率先建立建立联邦学习系统来解决用户个人终端设备的数据隐私问题,在安卓系统的手机用户中,首先将初始化模型下载到各终端,然后根据其本身的数据更新模型参数,不同终端随之产生不同的更新结果送到云端进行聚合,汇总后的模型参数将作为下一次更新的初始参数,一直迭代直到收敛。
用这样的方法既能保证数据不共享,保护用户隐私,同时又能共享一个通用模型,利用群体智能在云端不断更新,这就是联邦学习技术,而以该技术为核心的相关技术统称为联邦智能,平安科技副总工程师、联邦学习团队负责人王健宗博士首度提出了这一概念。他在近期接受 AI科技大本营(ID:rgznai100)等媒体采访时称, 联邦学习之于联邦智能,犹如深度学习之于人工智能,不过联邦智能仍属人工智能范畴,其最终目标是为了实现人工智能。
破局数据孤岛,联邦学习的应用实践
作为联邦学习技术的早期使用者,Google 在今年 2 月开源了联邦学习框架 TensorFlow Federated,可用于去中心化数据的机器学习及运算实验。国内,微众银行 AI 团队对外开源了自研的"联邦学习 FATE(Federated AI Technology Enabler)" 学习框架,并推动其在信贷风控、监管科技等领域的应用落地。
平安科技同样自主了蜂巢联邦学习平台,并有了相对成熟的落地案例。王健宗提到,基于平安科技的金融、保险业务数据,他们通过联邦学习技术对此前无法获取的数据进行联合建模,从而准确预测用户贷款或者信用卡的逾期违约率以及预测跨域产品购买行为,以及通过银行客户去预测买保险客户等应用,除了金融、保险领域,他们还在医疗、智能语音以及车联网等多个领域进行了实践应用。
这些应用的共通之处在于,联邦智能解决方案要求数据在传输过程当中能够实现实时的加解密,在此基础上还要高效实现,比如做深度学习训练时,要做到几千万甚至上亿参数的交换、同步、异步处理。基于此,新方案还要保证多源数据在AI 模型调优过程中的安全性,同时也要有效地评估各数据源对于最终优化结果的贡献度。
总之,要在分布式环境下实现联合建模,自然会对硬件支持提出相应要求,而平安科技与英特尔的合作为上述问题的初步解决提供了有效方案。
硬件层面上,双方形容在联邦学习技术层面的合作是"一拍即合"。英特尔一直都想做一个可信计算数据分析的执行环境,希望能有效地防止外界触达和攻击敏感的数据和应用。英特尔最新发布的 SGX(软件防护扩展)技术实现了这一点,其通过处理器指令,在不同数据源中创建可信区域来用于数据访问,这正好符合目前联邦学习运算的需求。
王健宗称,SGX 一开始的配置并不是为联邦学习而生,但这个硬件可信平台后期陆续开放了一些专用接口,如此可以直接封装接口,从而在信息传递加解密过程当中更快、更高效,这种把可信计算环境"硬化"的方法能够加快迭代训练,也符合当下软件硬化,硬件软化的趋势。
对比传统软加密的方式,比如在传统的深度学习框架 TensorFlow, PyTortch , Caffe, MxNet 上进行改造,其在信息处理传输中的加解密过程会消耗太多时间。
英特尔® SGX 技术以可信"飞地"来增强数据安全防护
具体来说,英特尔® SGX 技术可通过在特定硬件(例如内存)中构造出一个可信的"飞地"(Enclave), 用于中间参数的交互和传输,以帮助防止内外部攻击,使数据和应用程序的安全边界仅限于"飞地"本身以及处理器,同时其运行过程也不依赖于其他软硬件设备。这意味着数据的安全保护是独立于软件操作系统或硬件配置之外,即使硬件驱动程序、虚拟机乃至操作系统均受到攻击和破坏,能更有效防止数据泄露。
英特尔® SGX技术的联邦学习方案
基于英特尔®SGX 技术所具备的特性,联邦学习团队与英特尔一起,在其联邦学习方案中设计了 1+N 式的多源数据 AI 模型训练方法,有助于精确地评估各节点数据对于 AI 模型训练的贡献度,方便用户对方案进行调整。
以联邦学习在保险行业的应用为例,以往用户在投保时,业务人员只能根据用户的年龄、性别等基本信息来确定保费金额,但随着信息社会的不断发展,用户数据的数量和特征维度得到大幅增加,比如对于健康类险种来说,业务系统如果能够利用海量的病历、家族病史数据等进行 AI 预测,并得到更加细分的健康评估类别,有望提升投保人健康评估结果的准确度。
其中,病历、病史等无疑是各个健康医疗机构中需要绝对确保隐私的数据,不仅不可能予以公开,更需要提升安全等级予以保护。现在联邦学习方案的引入,保险企业可以在不触及用户数据的情况下开展保险定价模型的 AI 训练,从目前的效果来看,联邦学习 1+N 式解决方案使保险个性化定价效果得到了明显提升。
当然新技术的应用总是伴随着新挑战,联邦学习自有其目前无法解决的短板。王健宗指出,联邦学习目前是用不同算法来改造模型以进行联合建模,并没有一个工具或者方法论,能够解决所有的深度学习算法联邦化的问题。
同时,不同于区块链的去中心化机制,联邦学习形成的是有中心化的联邦 政府。在"联邦 政府"里只有一个共同模型负责分发,所以还要解决"两个信任"问题:一是确保有一个各参与方都信任的联邦 政府,二是联邦 政府的运作信息要透明。
不过各项新技术都在不断演进,王健宗认为,只要有更多企业和从业者加入到使用联邦学习的队伍中来,这些问题将逐步得到解决。
他类比十几年前做信息系统时面临的困境,当时每个信息系统的开发语言都不同,但现在已经完全解决;面临的数据孤岛问题依然存在,但后来云计算的出现让上百个系统数据互不相通的状况一去不返,所以这也让他乐观看待联邦学习在未来的发展前景。
联邦智能,引领 AI 革新的新曙光?
联邦学习技术这盘更大的棋在于各参与方共同打造联邦学习生态,但王健宗表示,当下最重要的是抢占先机,提出联邦学习应用于未来趋势的生态与解决方案。
生态离不开系统架构的布局。硬件层面,目前英特尔与平安科技的双方合作尚处第一阶段,只是拿出了一个硬体加密盒,解决了数据训练的其中一个环节。平安科技联邦学习团队将与英特尔进一步开展技术合作,以更多、更先进的技术驱动数据资源在联邦学习中的安全运转和高效转化,王健宗希望后续硬体加解密环境更多的改造成为联邦智能服务,同时在信息传输标准、知识训练接口规范等方面,英特尔可以通过业界标准渠道来打造生态,推动联邦学习在各行各业中的快速发展和应用。
英特尔还可能开发训练框架以支持联邦学习,同时其相关存储技术,比如SSD(固态硬盘)等也会做出相应行业解决方案,以点盖面进一步深化联邦学习解决方案。
在网络层,王健宗认为 5G 技术的到来会给联邦学习提供很好的机会,比如一定程度上解决参数交换瓶颈,这就需要在网络通讯层、编码层、存储层要为联邦智能定制相应技术规范,他还称平安科技在做相关联邦芯片的研究工作,也在考虑未来是否要设计联邦操作系统。
不过,要想落地相关应用,系统化实现联邦智能生态,还要依靠更多前线的人工智能从业者,他们希望这套联邦学习解决方案科技能够支持更多公司和行业,对以联邦学习为基础的技术进行深入探索,做一些实在的落地应用研究。
联邦学习技术目前更多应用于 AI 训练过程,其目标是形成联邦生态,不过王健宗更希望基于联邦学习技术,通过联邦数据库、联邦数据中心、联邦可视化来共同实现联邦智能。他坚信,新技术和新需求衍生的新一轮革新会助力AI产业实现腾飞,而联邦智能无疑是引领 AI 革新的新曙光。
https://www.toutiao.com/a6741933088483312140/