楼主: 胖胖小龟宝
35477 270

[学术动态] 大数据和统计学矛盾?   [推广有奖]

11
wangjie1995389 在职认证  发表于 2014-2-25 14:42:21
大数据与统计的关系,确实值得好好琢磨
学习、交流、进步

12
渔夫 发表于 2014-2-26 14:48:58
这个观点简单地把大数据理解为大的数据,我认为这是不准确的。
大数据除了大,还有其他两个方面含义。

1. 大, 多大叫大数据呢? 至少需要一个标准,数据量超过计算机内存。也就是说,即使你执行抽样技术选取样本分析,你也需要技术来克服这个问题。
2.复杂,传统的数据库,sql,将数据格式好后存到数据库里,分析人员再调出来。而如今数据分布在不同数据库,比如亚马逊的销售记录,google 的搜索记录,医院的门诊数据,这些数据都存在不同数据库中,大数据解决的就是如何集合分析这些没有格式化的数据。
3. 动态,销售,搜索,和门诊数据不仅多而杂,还在不断动态变化中。比如禽流感病例,如何迅速搜集并分析这些数据变得非常重要。

大数据 是因 网络技术等硬件技术发展倒逼而发展起来的,所这大数据的到来,统计理论也需要更新。比如这么大的数据,传统的 P value是否还有效? 动态的 数据更新是否需要进行 bonferroni correction?( Frequenist)还是给 Bayesian Statistics 发展的一次机遇?
已有 1 人评分学术水平 热心指数 收起 理由
胖胖小龟宝 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

13
胖胖小龟宝 发表于 2014-2-26 16:24:13
渔夫 发表于 2014-2-26 14:48
这个观点简单地把大数据理解为大的数据,我认为这是不准确的。
大数据除了大,还有其他两个方面含义。
最后那段说的的确有道理,大多数的数据分析都是静态的一个分析(起码数据固定了),但是大数据可以说是时时更新的,怎么去反映这个动态很关键。

14
Mr.sky 发表于 2014-2-26 16:32:40

回帖奖励 +2

不太了解,学习一下

15
shanshantz 在职认证  发表于 2014-2-26 16:35:15
看看

16
laughlaugh 发表于 2014-2-26 16:42:02

回帖奖励 +2

看看

17
qingbo0221 发表于 2014-2-26 16:43:36

回帖奖励 +2

看看

18
xtldy 发表于 2014-2-26 16:49:08
其实,统计学中的抽样理论就在于通过样本来推测总体,为什么用样本数据而不用总体数据?大家可以想想我们国家为什么隔10年才进行一次全国人口普查,原因很简单进行人口普查需要耗费大量的人力、物力和财力。现在之所以出现了“大数据”之说,关键就在于借助信息科学技术,使得数据获取和处理都相对容易一些。如果有了总体数据,当然就不需要进行推断了!

19
stone20025 发表于 2014-2-26 16:51:27

回帖奖励 +2

没啥矛盾,只是侧重点不一样罢了
stone20025

20
yangkongsong 在职认证  发表于 2014-2-26 17:09:16

回帖奖励 +2

不错,有道理。
交流、学习 ...

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-26 00:51