楼主: 山东汉子
1864 0

[其它] 对大数据(Big Data)持怀疑态度?因为你不懂! [推广有奖]

  • 5关注
  • 57粉丝

VIP

学科带头人

98%

还不是VIP/贵宾

-

威望
2
论坛币
52586 个
通用积分
5.8187
学术水平
255 点
热心指数
114 点
信用等级
226 点
经验
38467 点
帖子
1118
精华
20
在线时间
573 小时
注册时间
2011-11-24
最后登录
2019-4-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

本来准备睡觉,看到这篇对大数据表示怀疑的文章(http://blog.renren.com/blog/225975513/919781155)。本着好奇就看了下,发现技术上的硬伤太多,在这里简单提几点(蓝色部分从原文复制):

小明同学想要精确地测出自己的身高。由于测量存在误差,他连续量了5次,然后计算5次的平均值。有理由相信,这种方法比单纯量一次身高更准确些。但如果小明有足够的时间和耐心,他可以量1000000次,然后从1000000个结果里计算自己的身高。在这个例子里,虽然我们拥有了一百万条记录,其中包含的信息并不比5条记录多出多少——它们唯一的用处仍然只是计算小明同学的身高。很不幸,这就是大数据分析面对的现实。

学过一点统计的就知道,在正态分布的前提下,根据取平均来估计的误差跟 1/sqrt(sample size) 成正比。sample size在这里就是5次或者1000000000次。很明显,作者提出的这两个样本大小产生的误差在数量级上有天壤之别,这就是更多样本提供的信息。具体提供的信息还可以用信息论简单的算出来,这里不赘述。当然,就身高这个例子,测量一次的误差(噪音)本来也不大,实际生活也用不了那么精确的结果,甚至身高本身本来也会有微小变化。但是在其他地方,如果每次测量的误差很大(比如只能间接观测的实验),或者对精度要求较高,或者要估算的参数更复杂(比如下面Amazon的例子,需要估计一个巨大的协方差矩阵),大样本(更多数据)就非常重要。

反驳者认为,大数据能帮助更好地把握每个人类个体的情况。但即便在如此目的之下,收集大数据也不是必须的。以Amazon的在线推荐系统为例。对一个女性客户Alice,网站试图推荐Alice感兴趣的商品给她。如果Amazon的设计师热衷于设计复杂的系统,他大可以搜索Amazon的全部10亿个用户资料,找出那些购买偏好和Alice相似的客户,然后推荐她们以前买过的东西给Alice。直觉上说,只有当用户资料库足够大,才能找出和Alice足够相似的人,从而做出靠谱的推荐。但事实是:一个如此复杂的,基于10亿人的系统做出的推荐,其准确率甚至不到万分之一。相反,如果完全忽略Alice的个人偏好,直接给她推荐20个女性购买最多的商品,Alice购买的可能性甚至高于个性化推荐的商品。由此我们可以做出两点判断:(1) 10亿人的数据充斥着不含任何信息的噪音 (2) 即使基于少量信息,也可以判断个体的行为,并且不比基于大数据的判断来得差。

作者建议的其实是用一个基于性别统计模型来作推荐(可以设想,还有一个模型用来给男士推荐)。这里的性别确实是一个重要因素,但其他因素,比如年龄,工作情况,教育背景呢?例如,同样是女性,买了婴儿奶粉的会更有可能买婴儿尿布,但是买了老花镜的反而更不会买尿布。这种情况下,女性这一种模型显然不够,是不是还要根据尿布再来专门分个类?实际上,Amazon等网站实际使用的算法远不像作者想象的那么简单——“(在10亿人中)找出购买偏好和Alice相似的客户”。一个例子,所有用户的购买记录都可以放到一个巨大的矩阵中(例如:每一列表示一个用户,每一行表示一个/一类商品),这个矩阵自然也很稀疏,因为大部分用户只会买少量东西。接下来要做的就是对这个矩阵进行分解(matrix factorisation),这里有很多不同的技术,但基本思路都是找出主要的影响因素(作为Latent variable),例如性别、年龄、甚至还有很多不要好定义的因素都是自动找出来的。这样做的好处是通过对整个矩阵的分析,能自动找出几乎所有的相关(奶粉和尿布)和反相关项(老花镜和尿布)并综合作出推荐。所以,更多数据就是更多信息,特别是购物行为这种行为数据,只要方法的当就可以得到很多信息。

大数据被用来验证知识而非发现知识

上面Amazon就是发现知识的例子,用户行为的相关性就是知识。例子太多,这里还有比较近的一则新闻,http://www.bbc.co.uk/news/technology-21699305

传统上用于处理和分析小数据的技术,基本都可以直接拿来处理大数据。如机器学习界10-20年前提出的神经网络、SVM、聚类算法,以及统计学界30-40年前已经成熟的回归分析、PCA等等,现在依然是处理大数据的主流技术。当然,针对大数据处理人们研究了一些优化策略,如采用并行计算,用内存维护数据库,采用消除大数据噪音的方法等等。这些优化技巧有效地提高了处理大数据的效率。但尚称不上本质的进步。

这些优化恐怕不是你想的那么简单,Paralle/distributed computing本身就是计算机科学的一个分支。仅在数学/统计方面,前面提到的分解稀疏矩阵(Large sparse matrix factorization)就有线性代数和统计等基本领域的进步。如果硬要说这些不是本质的进步,按同样的逻辑,现在的计算机还是基于伏羲时就知道的二进制算术,本质也是一样。很多地方确实在用最基本的logistic regression,但这个领域进步得很快,要看到也有很多地方在用最新的技术。

算法层面上,现在最火的当属深度学习(Deep Learning)。公众所知的深度学习以Google Brain为代表,号称从上亿张图片里发现“猫”和“碎纸机”的概念(我相信Google Brain生成了成千上万个概念,其中绝大部分是无法理解的,只有符合常识的这几个被报道出来了,再次验证前一段的论点)。从技术上说,深度学习和1986年提出的人工神经网络并没有本质区别。仅仅是使用了和传统神经网络略有差别的激励函数,以及针对大数据做了些克制噪音的优化。目前深度学习的大佬Geoffrey Hinton,Yann LeCun都是八十年代搞神经网络起家的人,经历了近10年被SVM打压发不出论文的郁闷后,终于在近几年翻了身。Yann LeCun刚刚帮NYU拉到了1亿美元的大数据研究经费。还没来得及花,又被Facebook挖去主持Facebook AI Lab,确实炙手可热。虽然深度学习称得上近来的突破之一,但它实质上是把小数据算法应用于大数据的成功实例,并不能算大数据引发的原创技术贡献。

Hinton看到你说Deep Net跟传统神经网络本质一样,恐怕要吐血。而且正好跟你说的相反,Deep Belief Net和传统神经网络的激励函数倒是一样的(sigmoid function),区别其实在训练方法。简单的说,传统神经网络就是一种回归(regressioin),但Deep Learning有很漂亮的的统计学基础,可以从无限层贝叶斯网络,统计物理等角度来推导。另外,Deep Learning本身的提出跟大数据没什么关系,当然也谈不上“针对大数据的优化”。Deep Learning最近很火主要是因为这个算法比较局部(local),而且易于扩大(scalable),所以相对容易用于大数据,但这个过程也还是非常复杂。Google Brain的Machine Learning理论本身没什么新的,但难的是把任务分配到不同的计算单元和不同单元间的通信。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Big data Data 大数据 distributed regression 平均值 文章 测量 技术 记录

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 16:43