StartDT_AI_Lab | 开启“数据+算法”定义的新世界
继「数据中台技术汇」栏目推出以来,获得了不少技术极客的喜爱。作为AI驱动的数据中台创导者,深度关注核心算法技术的自研创新、融合探索,故推出全新AI算法栏目「StartDT_AI_Lab」,主要介绍算法团队所承担的角色与工作。本文先回顾这些年大数据之路,帮大家理解在奇点云发展过程中,人工智能技术是如何由业务需求孵化并成长为产品一部分的,同时为今后的分享内容做一个宏观概述。
2013年,一本《大数据》成了不少技术人案头必备的读物。它像是一盏照灯,将数字世界的完整尺度突然照亮,这时大家才意识到原来数字世界已经长如此大了。
从彼时起,大数据成了之后几年最热门的话题。随之而出的各类概念,如"DT时代"、"云计算"、 "DMP"等等,层出不穷。而其中的核心要素就是 "数据" ,数据两字似乎已成为技术界的圭臬。很多人将这次由大数据而带起的技术革新浪潮誉为"第四次工业革命",而将数据比喻为本次工业革命的 "石油"。恍惚间,颇有 "得之则生,弗得则死"之意。随后几年,各家公司都掀起了"囤数据"运动,凡是能存入硬盘的,绝不删除。"不管现在有用没用,先存着,未来一定有用"的观念,成了各家公司CIO、CDO们的指导思想。
然而,在"囤数据"运动方兴未艾,正推着硬盘价格也一路上涨的发展进程中,却有一个声音如幽灵般飘来,并日渐响亮:数据无用!这声音来自于这一运动中"出师未捷身先死"的烈士们,他们曾是"大数据"最忠实的拥趸,却在数据价值的追寻中日趋迷茫,最终被"囤数据"、"开采数据"所带来的成本飙涨压垮。
数据有用还是无用,成了一个可以讨论的辩题。双方各执一词,谁也说服不了谁,共同在这DT时代吐出了这样一句饱含憧憬却无奈的叹息:
如果你爱他,请给他数据,因为数据为王。
如果你恨他,请给他数据,因为数据为亡。
那么数据到底有没有用呢?不妨从奇点云多年积累的数据经验视角,我们一起来认真审视一下。
如果只是裸数据本身,可能确实是用处不大,正如汽车无法通过灌注原油驱动一样。
所以从数据中提取的信息才有用是吗?也不尽然,因为提取出来的信息大都支离破碎,并无法直接洞察商业情报。那么从信息中组合分析得出的商业情报才是价值点?还不够,因为情报本身如果不能转化为决策去执行,再多的情报也无法带来收益。
那以情报为依据,通过业务经验分析判断进行决策,是否就是DT时代的智能商业呢?还不完整,因为同一业务问题,解法是多元的,决策还需有效评估与优化迭代才能补全数据回环。
现在,一幅比较完整的数据转化利用的回环已经形成,而这也是我们的使命「让商业更智能」背后的方法论。
有了这一方法论为依归,整体建设思路也就基本明晰了。目前大家在已有的文章中,已知道我们的Simba和数据中台,其在商业智能化回环中的位置如下图所示:
显然,这一产品架构并没有覆盖整条商业智能化回环。尤其,从我们的愿景出发,帮助实体商家拥有淘宝一样的数据化运营能力,其中很重要的一点是帮助实体商家把线下非数字化、非结构化的各类商业场景数字化、结构化并上云,否则商业智能化回环将无法覆盖实体商家的主要商业场景,所谓的商业效益的提升也就无从谈起了。这其中缺失的便是本文介绍的重点,也是「StartDT_AI_Lab」的主体工作。为了实现覆盖实体商家全面商业场景的完整商业智能化回环而特别研发的三大智能化引擎。其在产品架构中的位置如下:
现在简单为大家介绍一下这三大引擎。
视觉智能引擎,作为数据入口,显然是重中之重。其肩负着为数字世界开疆拓土的重任,有点石成金,化水为油之魔力。
在对其进行产品定义时,我们主要从三个必然和两个凡是对其进行了概念描述:
在战略意义层面:
达成公司愿景的必然前提。
·将实体商家线下场景进行数字化并上线。
线下场景在数字化改造中对于实施成本,部署难度,复制性,易用性等方面要求下的必然要求。
信息革命浪潮中的必然途径。
·拓展互联网,万物互联,全部在线。
在产品定义层面:
凡是实体商家数字化场景需要的。
凡是计算机视觉技术可以发挥比较优势的。
在产品功能定义方面:
可回溯实时多级标签策略
·基础单元->单元属性->行业行为属性->情报摘要,例如人为一级标签,穿着衣饰为二级,是否 试穿某服装为三级,当天这件服装试穿客户的画像分析是四级;
·有业务分析需求反向要求线下数字化;
视频检索
可以回溯视频检索,例如要抽取二级标签相关的信息,只需要根据一级标签的时序、位置信息进行结构化升级和搜索即可;
Vision AI + X:从行业中来的特异性视觉模型
比如"双偷模型"这样的特异模型;
而关于商业洞察引擎和业务决策引擎,在之前的中台栏目中已做过相关介绍,在此不再赘述,只做一点补充。在两个引擎中广泛使用的大数据分析和预测模型得益于视觉智能引擎提供的线下场景数字化后的结构数据,形成了一系列紧贴实体商家实际商业逻辑和经验的特有的大数据模型。
从今日起,本栏目将围绕这三大引擎,自下而上逐一介绍其建构中用到的各类型算法技术和背后的故事,敬请期待!