这是个“数据为王”的时代,每年的“双11”有多疯狂,对大数据和数据资产的崇拜就有多热烈。过去五年来,诸多企业纷纷投重资构建社交媒体监测、大数据分析等方面的平台,期望迅速打开数据资产的宝盒,发掘数据中的隐含价值。
然而,多数企业几年下来对大数据的使用经验却并不令人惊喜,大数据带来的分析结果似乎并未带来与其投入相匹配的回报,期望的是雪中送炭,得到的却顶多是锦上添花,更多的情况下则是分析结果流于形式,还不如传统的分析方式精确和严谨。那么,问题究竟出在哪里?是什么导致了大数据分析的结果在“说谎”呢?
从专业的角度,原因其实可以总结出很多,包括过度炒作、数据鸿沟、数据垄断、隐私风险等等,写一本专著也没有问题。但是在当下,最大的问题其实是下面两个。
原始数据:一块注水猪肉
大数据的“大”,同时也就意味着其中蕴含的有效信息可能极为稀薄,而如果再碰上大量的虚假数据,则后果可想而知。
但是,数据本身是无辜的,让大数据“说谎”的实际上是人。在购物网站兴起的时候,以刷帖为代表的网络水军就已经非常活跃。而自从社交媒体出现之后,水军在互联网世界中的影响力更是大大超出了普通人的想象。商家眼里的数据是广告,它意味着人气、品质和顾客流量。互联网创业者眼里的数据是公司的核心资产,意味更多的融资、更高的估值。网红眼里的数据是转赞评,意味着更大的影响力和随之而来的商业机会。影视人眼里的数据是票房和播放量,意味着股价和IP价值。而水军则以制造数据为业,他们为商家解决了引流问题,为创业者带来了繁荣,为网红圈够了粉丝,但是也用大量的虚假数据彻底埋葬了真相。他们的行为与真实用户越来越像,你甚至不能用肉眼确定这些数据背后的Ta是一个真人,或者只是一道程序。
事实上,目前绝大多数的大数据分析平台都是不对水军信息/数据进行甄别的,既然无心于识别并剔除虚假数据,那么分析结论被无效的数据干扰,被失真的数据扭曲了决策,就是不可避免的结局了。
你还用微博大数据进行分析吗?难道你还相信某浪微博上还有活人?
一个人,一台服务器,轻松控制上万个微博小号(服务器界面截屏)
你还相信各种网络投票,各种点评和评论网站的结果吗?
专业刷单公司的土鳖刷量工具
分析手段:心有余而力不足
和传统数据分析相比,“大数据”中最吸引眼球的就是所谓的非结构化数据,社交媒体、网购评论等均属于这一范畴。但是这些数据的价值密度相对较低,目前仍然缺乏有效的技术对非结构化数据进行处理和分析。虽然Alpha Go在围棋上已经可以打败人类,但大数据分析技术在文本分析和语义理解方面要达到实用状态还有很长的路要走,而这显然是在对社交媒体、网购评论等数据进行分析是至关重要的。
虽然近几年来,如word2vec、卷积神经网络、seq2seq等文本挖掘、深度学习模型进展很快,也在BAT级别的企业中得到了大量应用。但事实上,大多数为企业提供大数据分析和社交媒体监测分析服务的平台目前使用的仍然是最简单的词袋模型,也就是把句子拆分成一个一个的词,然后再进行数据分析。实际上,即使是切词这种最基础的操作,目前也仍然是中文文本挖掘的一个大坑,还有很大的改进需求。希望这样的平台能提供精确的分析结果,那可实在是想的有些多了。而企业客户在应用分析结果时,又往往希望得到近乎100%的精确性,这实际上构成了和大数据分析工具之间不可调和的矛盾。
文章来源:统计之星



雷达卡



京公网安备 11010802022788号







