【封面报道】抢跑AI视觉
来源于 《财新周刊》 2018年第01期 出版日期 2018年01月01日
“独角兽”已批量登场,安防是中国特色下的第一大赛道,自动驾驶、电商、消费硬件也已依次排开
《财新周刊》 文 | 财新记者 屈运栩 叶展旗 特约记者 王晓庆
仿佛一夜之间,一个接一个数学博士、计算机博士、统计学博士牵头的团队,长成了数十亿美元估值的“独角兽”。
2014年3月,香港中文大学教授汤晓鸥团队发表了震动计算机界的学术论文,其原创的算法可使计算机的人脸识别精准率超过人类。敏感的风险投资(VC)机构IDG资本嗅到了机会,IDG合伙人周全与汤晓鸥相识,从中牵线,最终由IDG资本合伙人牛奎光团队拿出几千万美元的天使投资,支持汤晓鸥团队走出高校实验室创业。当年10月,商汤科技成立。
这笔投资彼时并未获得市场太多关注,VC们对教授创业也不是那么有信心。然而,时至2017年,资本已经追不上炙手可热的“汤老师”。据财新记者了解,商汤目前整体估值已到二三十亿美元。
“汤老师”们被归入一个全新行业——AI视觉,即将机器学习等AI(人工智能)技术应用于计算机视觉(computer vision,CV),让摄影机和计算机代替人眼对目标进行识别、跟踪和测量等。最为普通消费者熟知的场景就是人脸识别,比如苹果在2017年11月上市的iPhone X手机的“刷脸”功能,以及各类门禁系统、银行远程开户等使用的“刷脸”功能。
2017年年中以来,AI视觉公司突然进入融资“军备竞赛”,其中最受资本追捧的当属商汤、依图、旷视三家,三家公司团队皆博士成群,拥有大量来自学界的人才。2017年5月,成立五年的依图科技宣布完成C轮3.8亿元融资;7月,成立仅三年的商汤科技宣布完成B轮4.1亿美元融资,估值超过15亿美元;11月,成立六年的旷视科技宣布完成C轮4.6亿美元融资,刷新融资记录。就在旷视宣布融资的第二天,商汤又宣布启动C轮融资。
商汤的C轮融资在两周后就陆续公布。高通和松禾资本分别在2017年11月15日和12月26日宣布投资商汤,披露商汤估值超过20亿美元。“我们听说商汤这轮投资非常火爆,号称8亿美元on the table(摆到桌面上)。”一家知名VC的合伙人告诉财新记者。而另一家国内大型私募股权投资机构负责人,了解到的商汤最新估值已达30亿美元:“团队都挺好的,就是值不值这个价格?”
商汤科技联合创始人兼CEO徐立在接受财新记者专访时表示,“这波AI能起来其实只有一个原因,我一直强调‘工业红线论’概念,就是要看技术能否越过工业红线。比如在AI视觉领域,工业红线就是人眼识别的准确率。我们的算法让机器越过了这条红线,判断AI视觉能够工业化,能够成为替代现有劳动力的生产力工具。”
徐立称,商汤已在几个垂直行业形成了AI生态循环,“越往后(指融资轮次)的投资人,越不会被遥远的故事打动,一定会看你是怎么落地的,还会看未来是否有足够的增长空间。AI的关键就是落地。”
2017年9月12日,苹果秋季新品发布会,苹果全球营销高级副总裁Phil Schiller介绍iPhone X的面部扫描解锁功能。
面对商汤和旷视在资本市场的竞速赛跑,依图科技联合创始人林晨曦近日对财新记者说:“我们团队人数少一些,没有扩张团队,但现在看来,我们的价值是被市场低估了的。”
三家公司背后,已站上IDG创投、高瓴资本、鼎晖资本、创新工场、红杉资本、真格基金、云峰资本、高榕资本、纪源资本等中国IT和互联网行业的主要投资人。高通、蚂蚁金服、富士康等产业资本也纷纷入局投资。资本为何在这个时间段密集杀入AI视觉领域?
首先是沉寂多年的人工智能技术在近年取得了应用突破。谷歌旗下人工智能团队开发的AlphaGo系列在围棋项目中碾压人类顶尖棋手,呈现了超越人类的自我进化和学习能力,这形成了强大的市场教育和示范,催动所有AI公司身价暴涨。
但更重要的是,近年互联网技术在细分行业加速商业化演进,创造出了更为丰富的应用场景,引爆了AI视觉的落地需求。
事实上,中国一直有一块特殊的市场领域——安防市场,这个以政府采购为主的市场,已经成就一批硬件厂商。多位采访对象预估,中国安防市场整体规模高达几千亿元。
安防市场的上一次爆发约在十年前,以海康威视( 002415.SZ )、大华股份( 002236.SZ )等为代表的摄像头硬件公司为主。硬件厂商经过激烈的市场竞争,终将全国布满摄像头。但公共安全部门在实际使用中发现,摄像头单纯采集了数据,却无法利用大数据快速处理和解决更多的问题。比如从100万人中比对可能的犯罪嫌疑人员,就需要更高的运算能力和更精准的算法模型。
新兴的计算机视觉公司看到了这一机会,精研此道。于是,以算法模型立身的数学家和AI专家们与长于商务和渠道的硬件商们正面相遇——是合作还是竞争?
安防之外,金融、医疗、自动驾驶、电商、消费硬件等各类场景,也开始纷纷挖掘对AI视觉的潜在需求。AI视觉公司借势进入垂直行业提供解决方案,希望构建“数据-模型-应用-积累更多数据”的商业闭环。
教授和博士们迫不及待地从实验室跑上市场,试图在互联网巨头“扫荡”之前立稳脚跟,而后者又如何甘心放过机会?2016年到2017年,腾讯、阿里、华为等公司也纷纷加入战局,从满足自身业务场景入手,伴随云服务在垂直行业的拓展,AI视觉则作为整体解决方案的技术之一,被打包装入项目。
知情人士透露,互联网巨头和头部AI视觉公司之间的竞合关系十分复杂,多方资本暗战将是下一个看点。
“视觉计算刚刚起步,但火力太集中了,都去做人脸识别,这意味着安防的第二轮竞争已是红海。但其实很多场景还没有意识到需求,应用场景需要被界定,商业模式需要进一步探索。”阿里巴巴iDST副院长华先胜告诉财新记者。华先胜负责阿里AI视觉技术团队。
在头部公司牵引下,行业迅速扩张。据腾讯研究院2017年8月份发布的报告,中国计算机视觉领域有146家公司,在中国AI各领域中排名第一,之后是智能机器人与自然语言处理行业。在融资上,计算机视觉公司同样排名第一,迄今行业融资总额达143亿元,占比23%,高于自然语言处理与自动驾驶行业。
百家科技公司杀入这个目前尚由安防业务占六七成比例的市场,未来是何方向?多位行业人士和投资人对此总结称:算法是基础,数据是“护城河”,资本投入是最大助推器,但最终变现取决于应用场景,以及拿订单的商务拓展能力。各要素缺一不可。
视觉超越语音
计算机视觉的突破来自AI革命。上世纪80年代卷积神经网络(CNN)出现,却多年未获产业界关注。2012年,神经网络之父、多伦多大学教授Geoffrey Hinton为推广CNN,和学生一起参加了著名的ImageNet计算机视觉识别挑战赛并一举夺魁,击败了其他计算机视觉专家开发的算法,将准确率从此前两年的72%、74%大幅提升至84%。
这被视为近年AI技术的里程碑事件,影响了大批计算机视觉研究者。这些人或者来自全球各大高校科研院所,或者是科技巨头公司的研究院。大批研究者随后从学界下海,组建创业团队,而手握场景的科技巨头也纷纷成立实验室,高薪挖角或整体收购高校团队。
依图科技创始人朱珑和林晨曦正是在2012年创业。朱珑毕业于美国加州大学洛杉矶分校(UCLA),是统计学博士,曾在麻省理工学院人工智能实验室做博士后。林晨曦则来自业界,是阿里云计算资深专家,参与搭建了阿里云飞天分布式操作系统。
2013年,依图科技通过帮助某地公安系统识别车牌进入了系统采购名单,为进入真正核心的犯罪嫌疑人搜索比对领域创造了条件。这一领域是人脸识别的重要应用场景。当地公安系统有几百万人的数据库,需要从中匹配出路上拍到的犯罪嫌疑人照片。原有供应商提供的技术首位命中率仅为20%,这样的准确率面对百万级别的大数据几乎没有可操作性。依图的团队却在第一天实验时就将准确率提升到了85%。
“85%意味着在路上巡逻碰到十个人,有八个半能对出来是谁,公安的工作流程就可以据此展开。人脸识别在2014年落地了警务应用。”林晨曦说。
依图的创业故事是中国诸多AI视觉初创公司的缩影。
中国教育体系对数学教育的重视,给全球培养了很多人才。商汤科技投资人、鼎晖资本管理合伙人黄炎告诉财新记者,全球大概有10万人能被称为AI专家或人才,中国大概就有3万到4万人,顶尖的人才百里挑一,也就1000人到2000人。
2014年3月,现在的商汤科技创始人汤晓鸥当时仍在香港中文大学任教,其团队发布了一项研究成果,原创人脸识别算法,准确率达到98.52%,首次超越97.53%的人眼识别能力。机器看人能够超越人类肉眼。这样激动人心的发现,令“汤老师”的团队按捺不住了,遂与IDG资本一拍即合,下海创业。
各个创业团队在算法准确率上不断精进,在各类大赛中争冠,又通过这些成绩向市场推介自己。一般2B(对公业务)生意里,靠吃饭喝酒拿单的模式,被科技实力所打破。
中科院计算所研究员、中科视拓创始人山世光告诉财新记者,2012年以来,尤其是最近两年间,业界取得了长足进步,为广泛应用打下了基础:“人脸识别原来想做到千分之一的错误率都非常困难,如今的iPhone手机已经能达到百万分之一了。”
在算法领域,语音识别发展比计算机视觉更早,然而多位采访对象指出,语音识别的应用场景并没有AI视觉丰富,因而在风靡一时的智能语音音箱之外,语音技术并没有呈现太多爆发性的商业场景落地。
AI语音公司出门问问创始人李志飞对财新记者表示,在2B行业中,AI视觉公司比AI语音公司在创收上更为成功。重要的原因是AI视觉在解决非常小且具体的问题,比如美颜,但在语音识别领域这样清晰定义的情况很少。
创新工场创始人李开复则告诉财新记者,图像识别相比语音识别,更能击穿场景。对于人类来说,识别语音和识别语意是同步的事,但机器并非如此,语音识别和自然语言理解是两个步骤:“如果能够实现听得懂,那么应用场景将极大拓展,但只能识别语音,却在应用上受到很大限制。”最直观的案例是,目前应用于很多会议场合的语音识别软件,一旦遇到中英文夹杂的演讲对象就有些“思维混乱”。
即使语音识别受到诸多限制,该领域也诞生了科大讯飞( 002230.SZ )这样市值超过800亿元的小巨头。业界以此参照,认为视觉AI公司的中长期价值趋于乐观。
安防市场再度繁荣
AI视觉在中国第一个爆发的场景是安防。几乎所有AI视觉公司都先切入这一领域,大量公司的“第一桶金”来自政府采购。
AI视觉应用于安防的精确度惊人。在上海白虹软件科技股份有限公司(下称白虹软件)的办公室,财新记者提供了一张自己十几岁时的照片,工作人员将它输入后台。只凭借这一张照片,系统就自动关联出了记者被园区摄像头拍到的画面,以及手机号码、身份证号码等信息。
白虹软件董事长胡力和称,这套系统可以实现“车过留牌、人过留脸、机过留号”的功能,公安内部的数据库从这三个维度甄别信息,可以完全锁定目标对象。
2017年4月,公安部发布《公安科技创新“十三五”专项规划》,对下一步公安科技创新工作进行总体布局和系统阐述,通过专项规划的实施,开展知识创新、技术创新、应用创新与管理创新等四类创新;促进技术与装备的智能化、数据化、网络化、集成化、移动化应用。此前,中央高层已将公共安全视频监控系统建设纳入“十三五”规划和国家安全保障能力建设规划,部署开展“雪亮工程”建设。而“雪亮工程”的一项重要规划就是,统一管理目前还分属于政府各部门、社会机构的摄像头及其后台数据。
从中央到地方,公安系统在技术侦查方面的资金投入逐年增长。据接近公安部门的知情人士透露,福州市公安部门刚刚完成8亿元的人脸识别项目招标,上海市公安部门在未来三年的相关预算高达数百亿元。“公安部门相信,一个城市只要有足够的资金投入,治安一定没问题。在现有的技术下,想找谁都能找到,大部分案件可以覆盖。”这位人士说。
“所有最尖端的技术最开始一定用在最有钱的地方,过去是军工业,如今是AI用在政府类安防上。”深鉴科技创始人兼CEO姚颂认为,AI的部署成本决定了它的落地市场。
深鉴科技本是AI芯片公司,姚颂看到了安防市场的机会:在前端,一方面监控视频质量在改善,拉高了数据传输量和带宽成本;另一方面,实际场景中网络条件不一,比如小区、公交车上网络可能不稳定。这使得前端数据要提前做筛选,乃至直接在前端做人脸识别。而前端的智能化,也给中端传输、管理、储存的设备和后端服务器带来了更新换代的需求。
姚颂指出了进入安防领域的三个理由:首先,市场足够大,预计2017年整体安防市场收入能达到6000亿到7000亿元;其次,安防市场已存在多年,公司能够快速获得收入;第三,安防市场非常分化,公司能够切到一块“蛋糕”。
安防市场是“大蛋糕”,这是行业共识。“今年(2017年)有这么多公司都去得起深圳安防展,说明什么?这些公司都还活着,安防市场是足够大的。”旷视科技CTO唐文斌谈到市场竞争时毫不担心。
从技术层面看,目前算法公司的能力和安防市场需求也相当适配。唐文斌指出,AI视觉的最高应用门槛在自动驾驶领域,这一场景高度依赖机器独立完成。但在安防领域,是人机混合的逻辑,机器所要解决的问题更清晰:“并不是说识别出一个坏人,机器就会自动开枪把这人枪毙了。”唐文斌说,在安防上,是用机器挖掘情报,再通过人工研判的方式加以处理。这使得即便有一些极端情况(corner case)没有解决,也不至于产生灾难性的结果。
安防的技术升级需求,还需要算法公司更加努力地去满足。“抓逃,是目前公安部门最重要的应用点。”上述接近公安部门的知情人士表示,目前人脸识别技术还不能实现真正的智能识别,主要还是基于“比对”功能,如果“比对库”过大,就很难识别。AI视觉公司的技术最多只能承担80万张的数据库识别,如果是更大的量,误差就很大。他举例称,以全国通缉犯数据库的规模,按目前比对技术就可以满足。
有系统集成商人士向财新记者透露,人脸识别设备在公安系统的市场成交价约为4万-5万元/套,包括摄像头和分析算法,其中摄像头硬件价格大约在7000元-1万元,可见算法的价值占据大头。
“我们是将软件的成本摊到了硬件上,因为政府采购的习惯是:可以接受‘看得见摸得着’的硬件叫高价,却接受不了高价软件。”该人士解释称。他坦承,目前的利润率的确很高,随着市场化程度越来越高,价格下降是趋势。
唐文斌认为,安防市场规模未来会有数倍的扩张,原因在于随着现有数据被使用,更多算法和模型出现,安防市场还将激发更多的应用场景。
这是中国安防市场的第二轮激战,上一轮始于十年前,主要竞争模式是硬件加上摄像头存储和视频接入管理系统。“上一轮安防竞争差不多已经盖棺定论了,海康、大华占主流,但大大小小公司都有生存空间。”华先胜说。
而以算法切入的AI视觉公司成为第二轮安防市场竞争的主力,一入场就面临传统势力的“虎视眈眈”。