对大数据（Big Data）持怀疑态度？因为你不懂！-经管之家官网！

经济学管理学金融学统计学

您当前的位置> 数据>>

对大数据（Big Data）持怀疑态度？因为你不懂！

人大经济论坛-经管之家：分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

完整电子版已上线CDA网校，累计已有10万+在读~ 教材严格按考试大纲编写，适合CDA考生备考，也适合业务及数据分析岗位的从业者提升自我。

TOP热门关键词

专题页面精选

本来准备睡觉，看到这篇对大数据表示怀疑的文章（http://blog.renren.com/blog/225975513/919781155）。本着好奇就看了下，发现技术上的硬伤太多，在这里简单提几点（蓝色部分从原文复制）：小明同学想要精确地测出自 ...

扫码加入统计交流群

本来准备睡觉，看到这篇对大数据表示怀疑的文章（http://blog.renren.com/blog/225975513/919781155）。本着好奇就看了下，发现技术上的硬伤太多，在这里简单提几点（蓝色部分从原文复制）：

小明同学想要精确地测出自己的身高。由于测量存在误差，他连续量了5次，然后计算5次的平均值。有理由相信，这种方法比单纯量一次身高更准确些。但如果小明有足够的时间和耐心，他可以量1000000次，然后从1000000个结果里计算自己的身高。在这个例子里，虽然我们拥有了一百万条记录，其中包含的信息并不比5条记录多出多少——它们唯一的用处仍然只是计算小明同学的身高。很不幸，这就是大数据分析面对的现实。

学过一点统计的就知道，在正态分布的前提下，根据取平均来估计的误差跟 1/sqrt(sample size) 成正比。sample size在这里就是5次或者1000000000次。很明显，作者提出的这两个样本大小产生的误差在数量级上有天壤之别，这就是更多样本提供的信息。具体提供的信息还可以用信息论简单的算出来，这里不赘述。当然，就身高这个例子，测量一次的误差（噪音）本来也不大，实际生活也用不了那么精确的结果，甚至身高本身本来也会有微小变化。但是在其他地方，如果每次测量的误差很大(比如只能间接观测的实验)，或者对精度要求较高，或者要估算的参数更复杂（比如下面Amazon的例子，需要估计一个巨大的协方差矩阵），大样本（更多数据）就非常重要。

反驳者认为，大数据能帮助更好地把握每个人类个体的情况。但即便在如此目的之下，收集大数据也不是必须的。以Amazon的在线推荐系统为例。对一个女性客户Alice，网站试图推荐Alice感兴趣的商品给她。如果Amazon的设计师热衷于设计复杂的系统，他大可以搜索Amazon的全部10亿个用户资料，找出那些购买偏好和Alice相似的客户，然后推荐她们以前买过的东西给Alice。直觉上说，只有当用户资料库足够大，才能找出和Alice足够相似的人，从而做出靠谱的推荐。但事实是：一个如此复杂的，基于10亿人的系统做出的推荐，其准确率甚至不到万分之一。相反，如果完全忽略Alice的个人偏好，直接给她推荐20个女性购买最多的商品，Alice购买的可能性甚至高于个性化推荐的商品。由此我们可以做出两点判断：(1) 10亿人的数据充斥着不含任何信息的噪音 (2) 即使基于少量信息，也可以判断个体的行为，并且不比基于大数据的判断来得差。

作者建议的其实是用一个基于性别统计模型来作推荐（可以设想，还有一个模型用来给男士推荐）。这里的性别确实是一个重要因素，但其他因素，比如年龄，工作情况，教育背景呢？例如，同样是女性，买了婴儿奶粉的会更有可能买婴儿尿布，但是买了老花镜的反而更不会买尿布。这种情况下，女性这一种模型显然不够，是不是还要根据尿布再来专门分个类？实际上，Amazon等网站实际使用的算法远不像作者想象的那么简单——“（在10亿人中）找出购买偏好和Alice相似的客户”。一个例子，所有用户的购买记录都可以放到一个巨大的矩阵中（例如：每一列表示一个用户，每一行表示一个/一类商品），这个矩阵自然也很稀疏，因为大部分用户只会买少量东西。接下来要做的就是对这个矩阵进行分解（matrix factorisation），这里有很多不同的技术，但基本思路都是找出主要的影响因素（作为Latent variable），例如性别、年龄、甚至还有很多不要好定义的因素都是自动找出来的。这样做的好处是通过对整个矩阵的分析，能自动找出几乎所有的相关（奶粉和尿布）和反相关项（老花镜和尿布）并综合作出推荐。所以，更多数据就是更多信息，特别是购物行为这种行为数据，只要方法的当就可以得到很多信息。

大数据被用来验证知识而非发现知识

上面Amazon就是发现知识的例子，用户行为的相关性就是知识。例子太多，这里还有比较近的一则新闻，http://www.bbc.co.uk/news/technology-21699305。

传统上用于处理和分析小数据的技术，基本都可以直接拿来处理大数据。如机器学习界10-20年前提出的神经网络、SVM、聚类算法，以及统计学界30-40年前已经成熟的回归分析、PCA等等，现在依然是处理大数据的主流技术。当然，针对大数据处理人们研究了一些优化策略，如采用并行计算，用内存维护数据库，采用消除大数据噪音的方法等等。这些优化技巧有效地提高了处理大数据的效率。但尚称不上本质的进步。

这些优化恐怕不是你想的那么简单，Paralle/distributed computing本身就是计算机科学的一个分支。仅在数学/统计方面，前面提到的分解稀疏矩阵(Large sparse matrix factorization)就有线性代数和统计等基本领域的进步。如果硬要说这些不是本质的进步，按同样的逻辑，现在的计算机还是基于伏羲时就知道的二进制算术，本质也是一样。很多地方确实在用最基本的logistic regression，但这个领域进步得很快，要看到也有很多地方在用最新的技术。

算法层面上，现在最火的当属深度学习（Deep Learning）。公众所知的深度学习以Google Brain为代表，号称从上亿张图片里发现“猫”和“碎纸机”的概念（我相信Google Brain生成了成千上万个概念，其中绝大部分是无法理解的，只有符合常识的这几个被报道出来了，再次验证前一段的论点）。从技术上说，深度学习和1986年提出的人工神经网络并没有本质区别。仅仅是使用了和传统神经网络略有差别的激励函数，以及针对大数据做了些克制噪音的优化。目前深度学习的大佬Geoffrey Hinton，Yann LeCun都是八十年代搞神经网络起家的人，经历了近10年被SVM打压发不出论文的郁闷后，终于在近几年翻了身。Yann LeCun刚刚帮NYU拉到了1亿美元的大数据研究经费。还没来得及花，又被Facebook挖去主持Facebook AI Lab，确实炙手可热。虽然深度学习称得上近来的突破之一，但它实质上是把小数据算法应用于大数据的成功实例，并不能算大数据引发的原创技术贡献。

Hinton看到你说Deep Net跟传统神经网络本质一样，恐怕要吐血。而且正好跟你说的相反，Deep Belief Net和传统神经网络的激励函数倒是一样的(sigmoid function)，区别其实在训练方法。简单的说，传统神经网络就是一种回归(regressioin)，但Deep Learning有很漂亮的的统计学基础，可以从无限层贝叶斯网络，统计物理等角度来推导。另外，Deep Learning本身的提出跟大数据没什么关系，当然也谈不上“针对大数据的优化”。Deep Learning最近很火主要是因为这个算法比较局部(local)，而且易于扩大（scalable），所以相对容易用于大数据，但这个过程也还是非常复杂。Google Brain的Machine Learning理论本身没什么新的，但难的是把任务分配到不同的计算单元和不同单元间的通信。

「经管之家」APP：经管人学习、答疑、交友，就上经管之家！
免流量费下载资料----在经管之家app可以下载论坛上的所有资源，并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库，各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里，你可以找到任何学科方向、有共同话题的朋友。
经管之家（原人大经济论坛），跨越高校的围墙，带你走进经管知识的新世界。
扫描下方二维码下载并注册APP

本文关键词：

本文论坛网址：https://bbs.pinggu.org/thread-2810020-1-1.html

上一篇 | 线性回归的模型输入

下一篇 | 你如何理解纳什均衡，纳什均衡和帕累托最 ...

大数据精彩帖子推荐更多

您可能感兴趣的文章

本站推荐的文章

人气文章

本文标题：对大数据（Big Data）持怀疑态度？因为你不懂！

本文链接网址：https://bbs.pinggu.org/jg/shuju_dashuju_2810020_1.html

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责；
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性，不作出任何保证或承若；
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。

对大数据（Big Data）持怀疑态度？因为你不懂！-经管之家官网！

大数据