京东双11超级工程:AI成为交易平台备战主力
每年双十一,不仅是剁手族的狂欢节,更是各大电商技术团队技术水平与技术创新实践检验的舞台,不断创新高的销售额、交易峰值、支付峰值,这些惊人数字的背后都离不开强力的技术支撑。IT168希望通过技术报道的形式向读者揭秘各大电商平台在双十一这一"超级工程"背后的巨额投入与技术创新,让更多人了解技术,尊重技术,促进同行业之间的技术交流分享,推动提高行业整体技术水平。
本文摘要:
2017年的双十一大促是京东第四次零售革命的一场"大阅兵"。这次"阅兵"京东大手笔的布局了线下市场,超过160家京东之家和京东专卖店、近200家京东母婴体验店、超过1700家京东帮服务店,超过5000家京东家电专卖店,以及沃尔玛在全国的400余家门店、京东合作品牌商家的近万家门店以及接入京东掌柜宝的数十万家便利店都参与其中。
经过了历年618和双十一大促的多次磨练与考验,京东交易平台在应对超高并发、超大流量方面显然已经游刃有余。今年的双十一,京东重笔墨落在精细化和人工智能,对技术保障、GMV提升、用户体验等多方面进行了智能化升级。
作者:王晓烽
作者简介:王晓烽,京东商城交易平台架构师,负责交易平台基础架构规划,在应对大流量、高并发、低延时、高可用系统设计方面有丰富经验。
正文:
经过了历年618和双十一大促的多次磨练与考验,京东交易平台在应对超高并发、超大流量的大促系统稳定性技术保障方面已经游刃有余。整体上来说,系统稳定性主要是从高性能和高可用两大方面着手。
京东商城交易平台提供用户、商品、库存、价格、促销、优惠券等基础核心服务,提供购物车、结算页、订单中心等黄金交易流程的平台化服务,提供包括PC、APP、微信、手Q、开普勒等全渠道服务。
最近一年,我们主要深耕精细化,对技术保障、GMV提升、用户体验等多方面进行了智能化升级,本文我们就从技术保障和技术驱动业务两方面作分享。
京东双十一超级工程的技术保障
动态负载均衡和动态限流是流量智能调拨的两大应用
流量智能调拨目前主要应用于两方面,一是动态负载均衡,一是动态限流。
负载均衡算法在我们内部主要是基于随机和轮询两种方式,每年扩容服务器规格可能都不一致,硬件性能有高有低,组成一个大集群时,无论随机还是轮询都会有木桶效应,即整个集群性能由硬件规格最低的服务器决定。
我们之前是通过预先配置权重或者归类同规格机器"曲线救国"。这种方法在集群规模小时还比较可行,但随着集群规模的不断增大,这个过程不仅变得费时费力,还非常脆弱,极易出错,在大规模容器化时代更难以人工处理。因此,我们迫切需要负载均衡能动态识别服务器的承载能力,并自动调整其权重。
流量限制是为了在遇到流量突增时,把流量速率限制在系统所能承受的合理范围之内,不至于让系统被瞬时流量击垮。我们通过全链路压测已经能够比较精准估算出系统扩容需求,然而凡事都有万一,因此还需要做好限流准备。常见限流维度有访问量和并发数,此外还有平滑限流算法,例如漏桶(Leaky Bucket)和令牌桶(Token Bucket)算法,我们通常都是结合起来使用。
这些策略和算法通常是根据压测值预先估算的一个安全阈值进行静态配置,但实际运行环境往往是非常复杂多变的,访问量、并发数可能还没有达到安全阈值系统就扛不住了,此时再人工干预调整阈值已经来不及了。因此,我们同样需要限流器能动态识别服务器的承载能力,并自动调整阈值。
我们通过综合计算CPU使用率、CPU Load、TCP连接数、响应延时等系统与应用性能指标,可以实时计算服务器负载能力与健康状态,实时反馈到负载均衡器和限流器,实现流量智能调拨,既能最大限度提升资源利用率,又能赋予其足够的安全防护。
从自导自演到对抗军演再到自助式演练,京东故障演练再升级
去年双十一备战时我们的故障演练已经从"自导自演"升格为"对抗军演",分为红蓝攻守两军,分别负责故障恢复和故障制造。蓝军独立设计演习科目,红军事先并不知道,只会被告知在某个时间段发起"攻击"。指挥部要求必须在5分钟内识别故障点,准确执行预案,并有效恢复系统,这样考核才算及格。
今年我们的故障演练已经直接升级到了自助式,蓝军可以自主在军演系统内自行选择目标应用、目标集群,可以随机选择目标机器,可以组合多应用、多集群,组合多种故障,包括网络丢包、端口不通,CPU、内存、磁盘使用率飚高,Docker实例宕机、Redis实例宕机等等故障,可以即刻执行,亦可"埋弹"定时执行,甚至可以通过假报警释放"烟雾弹"。这样不仅解决了大量的人工干预与交互,更重要的是让故障案例更加随机,更加真实,更能如实检验预案的可行性、完备性,极大考验了应急团队处理故障的心理素质以及处理随机事件的响应能力。
技术驱动业务,京东交易平台智能化升级
双十一大促的成功同样离不开大数据和智能算法的支持,交易平台强大的产品设计和系统研发能力在这场"大阅兵"中功不可没。交易平台在原有的业务系统上,不断进行数据的智能化升级;同时,在原有的交易产品线基础上,陆续推出了针对用户体验、针对品牌商、针对采销的智慧营销产品线。
智选精灵,让你的商品最超值
智选精灵属于基础产品线的智慧化升级,其一期主要包含两个产品,一是购物车为用户智能选择最优的促销,一是结算页为用户智能选择最佳的优惠券。
京东营销活动中,无论是促销还是优惠券,都会出现一个SKU或多个SKU可以同时满足多个促销或多张优惠券,此外还有品类维度、商家维度,反之亦然。因此无论求最佳优惠券还是最优促销,其实都是一个求组合最优解的过程。
当数据量少,规则集小的时候,这个组合结果集相对较小,计算复杂度低,甚至不用系统计算,用户自己就能识别,并没有用户体验的问题。当数据量大时,特别是像京东目前有海量SKU,购物车可以同时加入上百SKU,各式各样的促销优惠规则,既有满减又有赠品,促销和券还可以叠加,每个用户可以领到上千张优惠券。此时,系统就面临两难了:如果不能为用户做出最优选择,用户购物时就得开"脑洞"了;如果要做,直接常规暴力穷举寻找最佳优惠将是一个海量的计算过程,开销非常大,可能还没算出来,前端调用早就超时。
此时智能算法的作用就凸显了。
在数理上,对于任一给定的随机问题,总有一个最优解。智能算法的任务就是寻找这一个解,最大程度的等于或者接近数理上的最优解。换句话说,我们的工作有点像打靶,10环的最中心是完全命中,但是9.999环同样是好成绩。9.999环意味着,如果理论最优值是1000元,我们计算到了999.9元。更重要的是,对于比较大的问题,最优解永远是不可知的,采用穷举的方式可能需要几天、几年、乃至几万年。
通过对智能算法的不断调优,智选促销和智选优惠券精确度分布在95%到100%之间,最保守概率是97.2%,同时在性能上能够维持在5毫秒以内,极大提升了用户体验,进而极大提高了转化率。。
智慧营销,牢牢锁定潜在用户
除了原有功能的智慧化升级,交易平台还陆续推出了包含京东专享、拉新复购神器等等与交易平台深度结合的智慧系统,大大提升了采销运营的灵活度、产出和效率。以前,采销只能通过业务经验,选择相应的用户标签和用户画像组合成想要营销的用户包,然后通过短信或者页面的方式触达用户。这个过程,极度依赖采销的业务判断,一旦判断有偏差,就会造成效果的偏差。
正是基于这个业务诉求,交易平台推出了智慧营销产品线。
以京东专享这个产品为例,这个产品一经推出,就在采销中引起了巨大的反响和热情。其中,最令人瞩目的就是这个产品的内在核心"高潜用户模型",该数据模型以用户、商品和行为数据为基础,建模团队通过数据挖掘的技术和机器学习的算法,构建用户购买商品的预测模型,输出高潜用户和目标商品。
这个逻辑看似简单,但是实现高精度的准确率非常困难。因为用户在购物过程中的行为会受到多种因素的同时作用影响,这其中包含价格、商品、渠道、促销活动等等,模型需要高频训练,才能适应市场的多样变化。
当前,高潜用户模型对品类甄别的准确率高达80%,其中烟灶、热水器等刚需品类的预测准确率可达85%以上。对购买SKU预测准确率超过50%,品类较为简单的烟灶等品类,SKU预测准确率可达80%。基本做到了"猜用户想买什么,用户就买什么"。两年间,高潜用户模型不断扩大预测品类,被更多的采销应用在日常和大促的促销活动中。
除了准确的数据模型之外,抢客系统还是采销最得力的"智慧促销工具"。通过接通不同的促销方式,如令牌、优惠券、预约预售、秒杀等,采销能够灵活使用高潜用户数据,为每个用户定制专属的最优促销方案,即:不同的用户匹配不同的商品,适用不同的价格,实现真正的千人千促、千人千触。
非大促期间,采销能够利用智慧模型和系统,更精准的定位高潜人群,并在系统操作建立专属促销和专属触达,让用户感受到京东的差异化渠道优势,实现抢夺那些"在京东浏览但即将在其他渠道下单"用户的目标,挽留即将流失的京东高概率购买用户。
大促期间,由于渠道间竞争激烈,很多用户跨渠道浏览比价,极易流失;同时,采销为了能够及时应对竞手渠道的营销策略,对促销方式的灵活性也有更高的要求。此时,围绕用户的智慧促销系统就十分必要。通过智能系统,采销能够将已经锁定的促销商品和促销价格(如预约商品等),提前释放给已经识别的高潜用户,助力品牌商将用户牢牢锁定。同时,智慧系统也给采销更多灵活操作的机会,以便应对更多样化的市场需求。
人工智能成为京东技术新主力
人工智能正以前所未有的姿态汹涌而来,快速进入人们的视野。京东一直致力于用技术驱动业务成长,全面提高用户体验。随着人工智能等技术在京东的全面应用,在业务与技术领域越来越多的以往靠人海战术解决的问题会逐步被机器接手,让技术人员发挥更大的创造性,在保障系统稳定性的同时,提高运营效率,大幅降低成本,提升用户体验。
"双十一"超级工程系列专题下期预告:
数据时代,大数据计算已经渗透到了各行各业,业务沉淀数据,数据计算产生新的业务价值,大数据计算正不断地用这种方式推动业务向前发展。那么面对双十一大促这样一个高并发、高流量、极具特色的业务场景,大数据实时计算又有哪些用武之地呢?敬请期待下期网易云资深技术专家带来的《网易双11"超级工程":大数据实时计算如何为你量身定制?》的分享。