如前文讨论的,人工智能的发展与应用,极大的依赖于数据科学家的科研创新能力,而如此稀缺的资源却常常被大量的数据清洗及特征抽取等繁琐重复的数据准备工作而占用。如同厨艺高超的厨师不能专注烹制美食,却需要花大量时间去洗碗摘菜。
当人力劳动不能被解放,任何一种科技创新都无法产生爆发性增长。人工智能若要产生颠覆性的价值,就必须打破“有多少人工,才有多少智能”的魔咒。
从早期的“专家系统(expert system)”发展到当今机器学习领域最热门的“深度学习(deep learning)”技术,人机互动已经实现了令人欣喜的三级跳。在本文中我们先“跳”完最后两级,再讨论人机互动将怎样推进人工智能的远大征程……
人定义目标和影响因子,并且将目标和影响因子转化为数据,让机器基于目标和影响因子的数据自我学习。还是以上面的电商选品为例,目标为商品营销销量,影响因子即是商品所属类目最近一个月的销量、商品的品牌最近一个月的销量、商品价格档次、商品最近一个月搜索量等等,而其中的权重均为根据历史样本而学习到的数据模型计算而来。
在这个阶段,机器学习到的逻辑并不是固化的经验规则,而是在不同情况(数据)下的动态规则,如此机器便可以在多种情况下自我学习和决策,这便是机器学习(Machine Learning)概念的由来。
一般情况下,机器学习让机器智能高于专家系统,因为机器学习系统可以在不同情况下灵活总结规律,不会以偏概全。然而,这里面最复杂的环节已在前文被反复提及:总结影响因子。
在机器学习的实际应用中,仍旧是人来总结影响因子,并将影响因子转化为数据,这个过程往往是交互迭代的:当算法计算出第一批特征中的某些特征权重较高时,数据科学家往往需要根据这些特征再去从原始数据提炼更多特征。正是由于当前数据特征抽取的过程是人工的,因此第一次特征抽取的范围是有限的,所以使得前面数据准备的工作还需要后面算法计算的指导修正。这个抽象影响因子和数据转化的过程是数据科学家或数据工程师的核心工作量。
在这个阶段,数据科学家的功力主要体现在如何能更好的减少人与机器之间的摩擦力,即将业务专家总结出的影响因子更好的翻译成机器能懂的语言——数据。至此,机器通过数据科学家的帮助,已经可以越来越多的理解人类的语言,学习并且灵活应用人类的经验。
人负责定义目标,并且将描述事物的基础数据传递给机器,由机器来提炼与目标相关的影响因子,并基于提炼的影响因子自我学习。例如,在上述例子中,描述商品的基础数据便是消费者所看到的商品信息,是商品的<品牌,类目,关键字,价格,消费者评价,商品款式>,基于这些基础数据机器可以自动提炼商品在不同时间的影响因子,例如,商品价格/与商品同品牌商品价格的平均值…… 算法可以自动提炼出业务专家以外的影响因子,同时可以覆盖业务专家的影响因子,从而用模型自动提炼不同时间不同场景下关键的影响因子。
在这里,机器提炼的影响因子可以覆盖人脑所推理的影响因子,其中的关键技术不仅包括更加高级的算法,也包括以暴力计算的方式用大量机器分布式协作找到数据在不同<时间、空间、场景>下的多维度交叉关系。这种多维度交叉关系,更是以数据的形式让机器可以理解和持续学习。
在此种情况下,机器可以自我学习的范围就大大增加。并且,人一旦一次性交付机器目标和数据,便可以一劳永逸地让机器持续决策与自我升级,这就是机器学习领域里的“深度学习(Deep Learning)”技术。至此,机器已经具备超越人类的学习能力,可以发现人类所不能发现的真相。(值得注意的是,机器拥有超越人类的学习能力,并不代表全面超越人类,对于这个问题兴趣的朋友,可以参阅“人工智能时代:一个数据科学家眼中人与机器的相杀相生”一文。)
然而,深度学习技术是任何人都无法理解的黑箱子模式——人们只能获取机器给出的结论,却无法得知机器给出此结论的依据。换而言之,深度学习仍然只停留在人对机器说话,机器却无法向人解释的阶段。
这显然是远远不够的,人工智能若要在商业中被广泛应用,就必需要人真正的信任理解智能机器。
那么人如何才能充分信任机器的决策呢?
“需要机器会说人话。”
这是一位拥有超过十年科研及实战经验的数据科学家给出的答案。这位前淘宝数据科学家坚信,面对重要的决策,影响人类接受度的往往不是机器预测的是否准确,而是机器预测的结果是否可以被解释,是否可以让人理解信任并且参与到最终的决策中。
基于这个理念,这位数据科学家带领团队,在不到一年的时间里,研发了可解释的机器学习算法技术,并且已经成功实现了整个数据挖掘过程全自动化。基于这个独创技术,无需数据科学家及业务专家的参与,机器可针对多个数据源实现自动特征抽取,通过清洗、处理、变化与重组,将原数据层层进化为新的数据。
这些进化后的数据,作为机器决策的核心材料,再结合传统统计分析与机器学习技术,提供可以解释的算法结果。只需要一个接口,这套技术便可以与客户服务器无缝对接,实现完整的实时预测,并直接与客户无障碍交互。
这位前淘宝数据科学家叫做杨滔,他现在的身份是桃树科技的创始人及CEO。
“会说人话的机器人”第一个应用场景是金融服务行业。传统的银行风险建模需要一个数据团队工作3到6个月,而使用桃树机器人后这一周期可以缩短至7天。同时,桃树机器人可7*24小时工作,自动产出可解释的决策结果,帮助银行贷款坏账预测准确率高达80-90%,金融产品的营销响应率提升3倍以上。
桃树机器人在银行业务的成功落地,仅仅是一个开始,只是微微露出了可解释人工智能技术无穷能量的冰山一角。当底层机器算法技术与传统数据咨询服务相结合,便形成“产品+咨询”的人工智能技术落地模式——产品在实际应用中不断优化,更好的“说人话”,数据科学家在咨询过程中持续将“人话翻译给机器”。这一双边循环沟通的结果,便是机器拥有了人类的语言基因,而人类对机器滋生出理解与信任。
这听起来已经足够美好?那冰山一角之下,到底还有什么惊喜?
单纯从商业的角度来看,真正具有颠覆价值的人工智能技术,并不是某一项具体的服务或者应用,而是能同时为消费者和企业提供多项智能服务的全新体系。人工智能,不仅是一项孤立的技术,还是依托机器学习技术的一项服务。这个智能服务体系的建立,便是人工智能商业化的关键。
这个人工智能的新体系,应当扎根在“海量数据,IT系统,大数据算法”的之下,是一个一个统管“数据-算法-应用”三边循环的中枢神经。
桃树团队将这个“需求背后的需求”、“产品背后的产品”称之为智能大脑,桃树正在做的事情,就是创造并不断完善这一最底层的机器学习技术。这个智能大脑,将是未来人工智能产业的基础设施。
当今,人们看到人工智能的应用,看到大数据的无处不在,都在急于找寻这项新兴科技的商业价值。殊不知,人类赖以生存的基础资源,如空气、雨水及阳光,往往润物细无声却无法也不应如商品一样被定价。
未来,当人与机器已经密不可分,当人造的和天生的已经融为一体,人工智能与大数据将成为如空气与水一般的基础能源,滋养万物,生机盎然。