我们错了?不是大数据,是胖数据-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 考研考博>>

考研

>>

我们错了?不是大数据,是胖数据

我们错了?不是大数据,是胖数据

发布:Lay.Terry | 分类:考研

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

http://img0.tuicool.com/uAZbq2.jpg前日一位友人受邀到我所在的公司做一个关于大数据的讲座,无意间再次勾起了我因为懒惰而扔到一边的就这个话题写点什么的兴致。当然,我自己的工作并不涉及大数据,对于相关的技术 ...
扫码加入统计交流群


http://img0.tuicool.com/uAZbq2.jpg

前日一位友人受邀到我所在的公司做一个关于大数据的讲座,无意间再次勾起了我因为懒惰而扔到一边的就这个话题写点什么的兴致。当然,我自己的工作并不涉及大数据,对于相关的技术和应用大多停留在“听说过”的水平上,因此本文恐怕连纸上谈兵都说不上。

其实什么叫“大”数据曾让我困扰了很久, 因为一个东西的大小是模糊的概念,除非数据量的扩大在某个点上引起了不连续的跃变,否则很难区分某个情景下的数据规模是否是“大”的。 所以如果把这个带有营销口号性质的词语放到一边,其实诸位DMer为之努力的和让我感到好奇的无非就是如何从一些数据里挖掘出有价值的信息以及这些信息可以被用来干什么这样的问题。

我近一年多的工作(或者美其名曰“研究”)方向是生物学领域中的“组学”这个分支,众所周知的人类基因组计划可谓其滥觞。组学研究是一个奇怪的分支,因为它的研究思路既是微观的同时也是宏观的。一方面,组学研究属于分子生物学和生物化学的范畴,研究对象的物理尺度在目前来看是整个生物学领域里最小的层级;另一方面,组学关注的并非个别基因或代谢物的功能和作用机制,而是把成千上万的微观对象构成的整个“组(-ome)”作为其目标。这种自相矛盾的研究策略本意是为了解决微观生物学管中窥豹盲人摸象的尴尬局面,结果它却带来了一种更大的尴尬——我们从每个个体(或每份研究样本)中获得的信息太多了。

那天的讲座结束后我问了一个问题: 现有的大数据解决方案和发展方向都是基于“每个样本提供少量数据,样本量和采样次数极大导致数据量大”这个情景,那对于“每个样本提供大量不同数据,样本量小于每个样本提供的数据个数”的情景我们有没有什么好的解决方案或者思路呢? 这位友人很坦率地告诉我,现有的以及处于研究中的方法和技术本质上基于统计学原理,因而并不适用于我描述的后一种情况。

这个答案并不让我感到意外。

我们以为我们在谈论“大”数据,其实我们只是在谈论“胖”数据。

大家都爱用的淘宝网,用户规模以亿计,可从每个用户处采集的数据恐怕不过那么几十种,每次采样的有效数据量应当不会超过KB级别。我知道在数据挖掘的过程中某些方法会将每项原始数据都可以分解成一个高维的特征向量,但就像任何数字图像处理技术都不能增加图片的信息量(脑补可以,嗯)一样,这种分解充其量是把原本的数据里包含的信息以更加清晰的方式呈现出来而已。

回到组学研究中来,每个人拥有的2万多个基因、预计300万个以上的SNP(单核苷酸多态性)将带来GB级别的单次数据量,这还仅仅是基因组而已。如果再加上表观遗传信息和各个主要器官的转录组、代谢组,每个个体每次“访问”产生的非冗余数据量还要扩大数倍,而我们对这数百万、上千万项数据之间的相互关系在很大程度上一无所知——是的,这些未知的关系恰恰是生物学特别是组学研究意图弄清楚的问题。

与这种规模的单次数据量不相称的是,无论是样品获取的难度还是从样品中取得数据的成本(个人全基因组测序成本低于$1000仍然是众多业内公司和技术人员为之努力的目标)都严重限制了组学信息的采样规模。通常的研究中样本数不会超过数百个,重采样次数即使不是可怜的“1”也极少超过5次。某公司规划实施的“百万人基因组”计划已经是该领域少有的大项目之一,而作为比较的baidu.com的日均PV近32亿、日均IP近4亿。

样本量小、重采样次数低、单次数据量巨大。这样的大数据之“瘦”,毫无疑问提出了一个与“胖数据”截然不同的问题。

典型的大数据应用模式包括样本聚类和关联度分析、数据随样本的分布规律分析和数据类型间关系分析,它们的具体实现包括而不限于细分化的产品营销、基站建设规划和用户行为/特征预测 。在组学研究中,基础研究者的根本需求是弄清楚组元(各个基因、蛋白质、代谢物以及表型)之间的关联从而为进一步的机制研究提供线索和框架,而应用研究者则更关注如何基于数据对样本进行分类或对某些组元进行预测以指导医疗活动,且由于领域的特殊性对预测的准确度要求极苛刻——你可以让我拿一个对潜在客户预测准确率30%的模型去做营销,但是绝对不能让医生用一个这样的模型去预测一个人是否需要接受某种疾病的预防性医疗。对组学数据分布的研究也有望为公共卫生政策、农业布局规划等广域决策提供有效的支持。而我们的麻烦始终在于,当数据总量相当的情况下,瘦数据不能通过分析胖数据时使用的方法挖掘出同样多的信息,而大数据的玩家们似乎面对胖数据就已经热血沸腾、焦头烂额了,无心顾及瘦数据这个小众领域。总之,每次听到业内外不知深浅的人谈论起大数据在组学方面的应用,都会有一种忍不住想劝告他不要拿自己的热脸去贴别人的冷屁股的冲动。

我并不是断言 大数据和组学研究是两条平行线应该各走各的,相反,我非常看好这二者结合起来后所能爆发出的巨大能量和商业价值 。但是——万事怕“但是”——没有弄清楚两者需要进行怎样的磨合就硬生生地把它们捏在一起恐怕是行不通的。我们需要带着我们的创新精神去寻找适合瘦数据的新的(好吧也许是旧的……数学一贯领先于其它学科)数学方法,需要把这些数学变成好用的软件平台,然后才能谈得上解决具有划时代意义的科学问题和开创遍地黄金的新市场。

如果说这对于组学研究者和相关产业来说太过遥远,那我们或许应该试着想一想怎么把瘦数据变成大家喜闻乐见的胖数据——$1000检测一个人的整个基因组远远不如每个人5美分检测两万个人的某个特定基因来得好,一次性地弄清一份血液样本里的几百种化学物质也不如全天候地跟踪一个人血液中其中特定一种的变化且不需要弄破他的皮肤更有医学价值。总之,既然我们想要搭上大数据的顺风车而这辆该死的车又不愿意为了我们去修改座椅的设计,那还是老老实实地想办法改变自己的体型吧。

瘦未必是什么好事,真的。

作者:CoHuBridge,细胞生物学在读博士,转自:果壳网


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3105855-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。