来源于 第一财经周刊 2017-09-18 出版
【封面故事】数据帝国
周欣
数据是未来的石油,已经有越来越多公司意识到这一点并付诸行动。垄断或开放?一场“权力的游戏”正在悄然上演。
过去几个月,华为与腾讯这两家市值数万亿的超级公司之间发生了激烈的争辩——起因是华为去年推出的一款销量不多的手机荣耀Magic。据《华尔街日报》报道,工信部通信管理局都已经介入调节此事,而双方依然相持不下。
作为一款售价3699元的手机,Magic上市之初的最大卖点在于,其搭载的人工智能(AI)系统,可以自动读取屏幕上显示的特定内容,并为用户做相关推荐。腾讯认为,华为此举不仅夺取了微信的用户数据,也侵犯了用户隐私。华为则强调,所有数据都属于用户,而Magic所获取的数据早就获得了用户授权。
“没想到Magic会以这种方式被人们讨论。”作为项目早期的核心参与者之一,高山认为现在的舆论方向出现了明显偏差。“华为并没有侵犯用户隐私,外界关于这件事的讨论也不该局限于用户隐私。”在接受《第一财经周刊》采访时,高山试图从法律、技术等各个角度来证明自己的观点。最后,他长长地叹了口气。
根据高山的说法,“侵犯用户隐私”只是腾讯编造的一个借口。从技术角度来说,只有当微信内容显示在手机屏幕上,并且与地址、时间等相关时,Magic手机才会增加提示,指向高德地图等App。按照他的比喻,Magic只是在显示屏上“放了一层复印纸”,并未真正取出用户的数据。
“如果争论能让民众有更多这方面的意识,那就争论好了。”高山口中所谓的“这方面意识”,指的正是华为在人工智能方向上的探索。那是在6年以前,移动互联网刚刚兴起的时候。华为内部想开发一款“设备”,通过人工智能系统分析用户行为,减少用户在不同App之间切换的次数。在内部,他们将这些孤立的App比喻为“垂直烟囱”。
一个月前,腾讯和华为举行了一场内部交流会。双方探讨了Magic手机的具体技术。几天以后,在接受媒体采访时,腾讯公司副总裁丁珂表示,华为的本意是好的,技术上来说,人工智能会带来高效,双方争论的根本原因在于,两家公司“理念不同”。
大量且独特的数据,加上背后的庞大资源,使BAT三家成为人工智能初期发展的主要受益者。
“关键在于华为与腾讯两个生态之间的冲撞。”AI创业者李飞认为,双方的根本矛盾在于对互联网服务入口的争夺。腾讯的理念是“连接一切”,作为一家互联网公司,它所获得的数据最终都会存储在服务器,而华为Magic的用户数据只保留在手机。“华为是技术公司,不需要数据,互联网公司需要数据,因为它们的估值和数据直接相关。”根据金融公司高盛近期发布的AI报告,由于中国人口基数庞大,且大部分人都与互联网发生联系,目前这个国家已经产生了全球13%的数字信息,到2020年,这一数字预计会增至20%至25%左右。“数据是未来的石油。”不止一位受访者在聊天过程中表达了这一看法。阿里巴巴创始人马云在6月的一次演讲中,甚至将以数据为基础的人工智能竞争上升至“第三次世界大战”的高度。高盛认为,大量且独特的数据,加上背后的庞大资源,使BAT三家成为人工智能初期发展的主要受益者。由于各家旗下产品布局广泛,所以它们会拥有不同维度的用户行为数据。比如阿里巴巴,旗下有以淘宝和天猫为代表的电商业务,以菜鸟和圆通为代表的物流业务,以蚂蚁金服为代表的金融业务,此外,还有高德地图,优酷、UC浏览器等各类App在获取数据。
从数据类型来看,阿里巴巴最为核心的是交易和物流数据、支付数据、社交网络数据;腾讯最重要的是社交网络数据、支付数据、交易数据;而百度最为核心的是搜索数据、位置数据、交易数据。几家公司尤其是阿里巴巴和腾讯,为扩充自己的数据维度,也会在其他方向投资和布局,比如阿里巴巴在社交方面持有微博31%的股份,腾讯在电商方面持有京东18.1%的股份等。
对这些大公司来说,数据独特性既是优势也是劣势。为补充数据维度,它们往往会倾向于与一些第三方平台合作,比如阿里巴巴在2013年收购了友盟,百度同年收购了91手机助手,京东在今年5月投资了TalkingData。这些第三方数据平台大多是通过SDK(软件开发工具包)植入的方式获取一些行业数据,与大公司在数据层面形成一定互补。
在阿里巴巴张北数据中心,千台以上的服务器在随时传输和处理数据。“几个足球场那样大的厂房。每个服务器都在散热,发出噪音。你就像是进了一个纺织厂。”此前供职于阿里云的李潇潇第一次看到这番场景时,感到“非常震撼”。
小公司也在通过各种各样的方式收集数据。“每个App都想使用我的定位。”作为对个人隐私安全比较重视的用户,吴敏霞感觉自己时时刻刻都在被“骚扰”,“你说一个工具性的App,里面又没什么内容,又不做社区,要我地理位置做什么。”她形容这种感受,就像是“站在公交上,别人伸着脖子想要看自己的手机屏幕”一样。
这种比喻可能还不够恰当。很多时候,想看她手机屏幕的人其实不需要“伸着脖子”那般费力。在获取敏感权限如通讯录信息时,安卓的做法是一次性显示隐私权限列表,大部分情况下用户只能选择同意,否则就无法使用App。苹果手机的做法相对严谨,它会拆分出通讯录、地理位置等信息,一个一个弹窗去询问用户。但多数情况下,用户都处于一种无意识状态,即便拒绝了某项权限,也会在使用App的后续过程中,不断收到相关提醒。“你没有选择权,这只是个流程而已。”吴敏霞感到十分无奈。
数据隐私,一个古老的话题。在大数据安全公司瀚思科技创始人董昕看来,这是一件需要权衡考量的事情。“绝对的隐私安全意味着无限的成本和时间,更多情况下,其实是(我们)在安全、便捷性及成本之间的一个取舍。”
“只要是跟人、机器交互,都会泄露数据。如果想让信息万无一失,你最好用黑白的诺基亚。”李潇潇认为,泄漏部分隐私数据比如名字、年龄、地址等其实并不可怕,可怕的是用户日复一日的使用习惯。“人的生活是一个线性状态,单个行为数据变成数据网络,最终会讲出各种各样的故事。”
从外卖服务到外出打车,我们的生活已经被互联网全部渗透。“都不需要去劫持。在你默认的情况下,别人光明正大地截取你的数据。”李潇潇说道。在LBE安全公司商务总监梅楠看来,BAT的优势或许在于,它们花了那么大的时间和精力,改变了人们的生活习惯。
“你很难轻易地改变一个人。这是非常了不起的事情。”他认为,随着BAT版图的不断扩大,数据未来一定会呈现出越来越封闭的特征。
一般来说,用户在操作手机时,数据信息会被手机厂商、运营商、SDK及App开发者获得。其中手机厂商主要获得机型信息、定位信息等数据,运营商主要获得电话号码、短信等数据,BAT这些大公司,一般也都拥有自己的数据后台;而一些中小型App,出于成本等方面的考量,通常会采用第三方平台上传的用户数据,后者在App中植入SDK,得以访问App的用户数据。
事实上,无论手机厂商、运营商、SDK还是App开发者,只要它们想获取一些敏感信息,都可以通过一些特定的技术手段达到。以SDK为例,接口上传下发的具体内容,App开发者其实并不知晓。所以对应用开发商来说,一般除数据平台以外,它们在接入SDK时都会比较谨慎。据阿里云前员工李潇潇透露,很多免费游戏会通过植入SDK的方式获取用户数据,再卖给其他平台。“用户大多是在不知不觉的情况下,泄露了自己的隐私数据。”
“先决条件是它们想不想做坏事。”梅楠说道。目前,手机厂商和运营商的自我管控相对较严。相较之下,App对于用户的数据获取稍显活跃。
信息泄露一般还会发生在内部泄露或第三方劫持等特殊情况下。“黑产数据”是一个伴随行业发展应运而生的词汇。在这个产业链里,上游通过制作病毒木马、黑客攻击等方式获取用户账户密码、身份等信息,再经过人工或技术手段去电商等平台验证筛选(俗称“撞库”),最终整合信息,实施电信诈骗、盗取游戏装备、盗卡交易等非法活动。6月《网络安全法》正式发布以前,暗箱收集数据的情况在行业里并不少见。但现在,只要提到数据问题,互联网公司都表现得异常敏感。据汇业律师事务所黄春林透露,目前很多企业都在调整自身业务结构和逻辑,尤其是一些互联网金融机构及电商平台,近期都重新修订了个人用户隐私等条款,一些大企业甚至为此增设了相关岗位。
这些公司处于一种两难的境地。因为中国的法律要么“一刀切”,要么“完全模糊”。极光大数据产品副总裁陈宇认为,“割裂用户和公司来看这件事,其实都不客观。你为我更好地服务,我为你输入数据。这是双向的过程。”现在,行业的普遍共识是,涉及到个人用户隐私的敏感数据,坚决不碰,合作时也尽量采用脱敏或API(应用程序编程接口)调用等方式。而在一些融资到C轮以上的公司看来,个人隐私数据简直就是“烫手山芋”,也因为这种数据存在间断性特征,它们认为,只有一些“想赚快钱”的公司才会触碰涉及到个人用户隐私的敏感数据。
从盲目争夺个人隐私数据,到对用户行为数据的争夺,互联网公司在追求数据价值的过程中已经越来越清醒。几年以前,大数据这个词听起来还像是一个资本故事,但现在真的有不少公司,通过各种方式,拥有了所谓的“大数据”。
“大数据不是小公司能做的事情。”复星投资总监刘思齐说道。她以极光大数据为例——其数据获取原理是通过SDK植入,了解到“用户在什么时间使用了什么App”,通过覆盖更多类型的App,极光可以结合App等标签建立数据模型。几个月前,这家数据公司宣布获得来自富达国际的数千万美元D轮融资——发展到今天这一规模,它用了6年时间。
数据之间很难实现真正的流通。在所有人眼里,数据都是自己的核心资产。哪怕是用来交换,交易的也都是一些经过脱敏处理的,相对边缘的数据。比如在浙江大数据交易所,一些企业交换的数据只能用于行业分析。“一种象征性的交换。”刘思齐对《第一财经周刊》说。


雷达卡








京公网安备 11010802022788号







