对大数据(Big Data)持怀疑态度?因为你不懂!-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 数据>>

大数据

>>

对大数据(Big Data)持怀疑态度?因为你不懂!

对大数据(Big Data)持怀疑态度?因为你不懂!

发布:山东汉子 | 分类:大数据

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

获取电子版《CDA一级教材》

完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。

完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。

本来准备睡觉,看到这篇对大数据表示怀疑的文章(http://blog.renren.com/blog/225975513/919781155)。本着好奇就看了下,发现技术上的硬伤太多,在这里简单提几点(蓝色部分从原文复制):小明同学想要精确地测出自 ...
扫码加入统计交流群


本来准备睡觉,看到这篇对大数据表示怀疑的文章(http://blog.renren.com/blog/225975513/919781155)。本着好奇就看了下,发现技术上的硬伤太多,在这里简单提几点(蓝色部分从原文复制):

小明同学想要精确地测出自己的身高。由于测量存在误差,他连续量了5次,然后计算5次的平均值。有理由相信,这种方法比单纯量一次身高更准确些。但如果小明有足够的时间和耐心,他可以量1000000次,然后从1000000个结果里计算自己的身高。在这个例子里,虽然我们拥有了一百万条记录,其中包含的信息并不比5条记录多出多少——它们唯一的用处仍然只是计算小明同学的身高。很不幸,这就是大数据分析面对的现实。

学过一点统计的就知道,在正态分布的前提下,根据取平均来估计的误差跟 1/sqrt(sample size) 成正比。sample size在这里就是5次或者1000000000次。很明显,作者提出的这两个样本大小产生的误差在数量级上有天壤之别,这就是更多样本提供的信息。具体提供的信息还可以用信息论简单的算出来,这里不赘述。当然,就身高这个例子,测量一次的误差(噪音)本来也不大,实际生活也用不了那么精确的结果,甚至身高本身本来也会有微小变化。但是在其他地方,如果每次测量的误差很大(比如只能间接观测的实验),或者对精度要求较高,或者要估算的参数更复杂(比如下面Amazon的例子,需要估计一个巨大的协方差矩阵),大样本(更多数据)就非常重要。

反驳者认为,大数据能帮助更好地把握每个人类个体的情况。但即便在如此目的之下,收集大数据也不是必须的。以Amazon的在线推荐系统为例。对一个女性客户Alice,网站试图推荐Alice感兴趣的商品给她。如果Amazon的设计师热衷于设计复杂的系统,他大可以搜索Amazon的全部10亿个用户资料,找出那些购买偏好和Alice相似的客户,然后推荐她们以前买过的东西给Alice。直觉上说,只有当用户资料库足够大,才能找出和Alice足够相似的人,从而做出靠谱的推荐。但事实是:一个如此复杂的,基于10亿人的系统做出的推荐,其准确率甚至不到万分之一。相反,如果完全忽略Alice的个人偏好,直接给她推荐20个女性购买最多的商品,Alice购买的可能性甚至高于个性化推荐的商品。由此我们可以做出两点判断:(1) 10亿人的数据充斥着不含任何信息的噪音 (2) 即使基于少量信息,也可以判断个体的行为,并且不比基于大数据的判断来得差。

作者建议的其实是用一个基于性别统计模型来作推荐(可以设想,还有一个模型用来给男士推荐)。这里的性别确实是一个重要因素,但其他因素,比如年龄,工作情况,教育背景呢?例如,同样是女性,买了婴儿奶粉的会更有可能买婴儿尿布,但是买了老花镜的反而更不会买尿布。这种情况下,女性这一种模型显然不够,是不是还要根据尿布再来专门分个类?实际上,Amazon等网站实际使用的算法远不像作者想象的那么简单——“(在10亿人中)找出购买偏好和Alice相似的客户”。一个例子,所有用户的购买记录都可以放到一个巨大的矩阵中(例如:每一列表示一个用户,每一行表示一个/一类商品),这个矩阵自然也很稀疏,因为大部分用户只会买少量东西。接下来要做的就是对这个矩阵进行分解(matrix factorisation),这里有很多不同的技术,但基本思路都是找出主要的影响因素(作为Latent variable),例如性别、年龄、甚至还有很多不要好定义的因素都是自动找出来的。这样做的好处是通过对整个矩阵的分析,能自动找出几乎所有的相关(奶粉和尿布)和反相关项(老花镜和尿布)并综合作出推荐。所以,更多数据就是更多信息,特别是购物行为这种行为数据,只要方法的当就可以得到很多信息。

大数据被用来验证知识而非发现知识

上面Amazon就是发现知识的例子,用户行为的相关性就是知识。例子太多,这里还有比较近的一则新闻,http://www.bbc.co.uk/news/technology-21699305。

传统上用于处理和分析小数据的技术,基本都可以直接拿来处理大数据。如机器学习界10-20年前提出的神经网络、SVM、聚类算法,以及统计学界30-40年前已经成熟的回归分析、PCA等等,现在依然是处理大数据的主流技术。当然,针对大数据处理人们研究了一些优化策略,如采用并行计算,用内存维护数据库,采用消除大数据噪音的方法等等。这些优化技巧有效地提高了处理大数据的效率。但尚称不上本质的进步。

这些优化恐怕不是你想的那么简单,Paralle/distributed computing本身就是计算机科学的一个分支。仅在数学/统计方面,前面提到的分解稀疏矩阵(Large sparse matrix factorization)就有线性代数和统计等基本领域的进步。如果硬要说这些不是本质的进步,按同样的逻辑,现在的计算机还是基于伏羲时就知道的二进制算术,本质也是一样。很多地方确实在用最基本的logistic regression,但这个领域进步得很快,要看到也有很多地方在用最新的技术。

算法层面上,现在最火的当属深度学习(Deep Learning)。公众所知的深度学习以Google Brain为代表,号称从上亿张图片里发现“猫”和“碎纸机”的概念(我相信Google Brain生成了成千上万个概念,其中绝大部分是无法理解的,只有符合常识的这几个被报道出来了,再次验证前一段的论点)。从技术上说,深度学习和1986年提出的人工神经网络并没有本质区别。仅仅是使用了和传统神经网络略有差别的激励函数,以及针对大数据做了些克制噪音的优化。目前深度学习的大佬Geoffrey Hinton,Yann LeCun都是八十年代搞神经网络起家的人,经历了近10年被SVM打压发不出论文的郁闷后,终于在近几年翻了身。Yann LeCun刚刚帮NYU拉到了1亿美元的大数据研究经费。还没来得及花,又被Facebook挖去主持Facebook AI Lab,确实炙手可热。虽然深度学习称得上近来的突破之一,但它实质上是把小数据算法应用于大数据的成功实例,并不能算大数据引发的原创技术贡献。

Hinton看到你说Deep Net跟传统神经网络本质一样,恐怕要吐血。而且正好跟你说的相反,Deep Belief Net和传统神经网络的激励函数倒是一样的(sigmoid function),区别其实在训练方法。简单的说,传统神经网络就是一种回归(regressioin),但Deep Learning有很漂亮的的统计学基础,可以从无限层贝叶斯网络,统计物理等角度来推导。另外,Deep Learning本身的提出跟大数据没什么关系,当然也谈不上“针对大数据的优化”。Deep Learning最近很火主要是因为这个算法比较局部(local),而且易于扩大(scalable),所以相对容易用于大数据,但这个过程也还是非常复杂。Google Brain的Machine Learning理论本身没什么新的,但难的是把任务分配到不同的计算单元和不同单元间的通信。


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-2810020-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
联系客服
值班时间:工作日(9:00--18:00)