楼主: 胖胖小龟宝
31766 270

[学术动态] 大数据和统计学矛盾?   [推广有奖]

11
wangjie1995389 在职认证  发表于 2014-2-25 14:42:21 |只看作者 |坛友微信交流群
大数据与统计的关系,确实值得好好琢磨
学习、交流、进步

使用道具

12
渔夫 发表于 2014-2-26 14:48:58 |只看作者 |坛友微信交流群
这个观点简单地把大数据理解为大的数据,我认为这是不准确的。
大数据除了大,还有其他两个方面含义。

1. 大, 多大叫大数据呢? 至少需要一个标准,数据量超过计算机内存。也就是说,即使你执行抽样技术选取样本分析,你也需要技术来克服这个问题。
2.复杂,传统的数据库,sql,将数据格式好后存到数据库里,分析人员再调出来。而如今数据分布在不同数据库,比如亚马逊的销售记录,google 的搜索记录,医院的门诊数据,这些数据都存在不同数据库中,大数据解决的就是如何集合分析这些没有格式化的数据。
3. 动态,销售,搜索,和门诊数据不仅多而杂,还在不断动态变化中。比如禽流感病例,如何迅速搜集并分析这些数据变得非常重要。

大数据 是因 网络技术等硬件技术发展倒逼而发展起来的,所这大数据的到来,统计理论也需要更新。比如这么大的数据,传统的 P value是否还有效? 动态的 数据更新是否需要进行 bonferroni correction?( Frequenist)还是给 Bayesian Statistics 发展的一次机遇?
已有 1 人评分学术水平 热心指数 收起 理由
胖胖小龟宝 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

使用道具

13
胖胖小龟宝 发表于 2014-2-26 16:24:13 |只看作者 |坛友微信交流群
渔夫 发表于 2014-2-26 14:48
这个观点简单地把大数据理解为大的数据,我认为这是不准确的。
大数据除了大,还有其他两个方面含义。
最后那段说的的确有道理,大多数的数据分析都是静态的一个分析(起码数据固定了),但是大数据可以说是时时更新的,怎么去反映这个动态很关键。

使用道具

14
Mr.sky 发表于 2014-2-26 16:32:40 |只看作者 |坛友微信交流群

回帖奖励 +2

不太了解,学习一下

使用道具

15
shanshantz 在职认证  发表于 2014-2-26 16:35:15 |只看作者 |坛友微信交流群
看看

使用道具

16
laughlaugh 发表于 2014-2-26 16:42:02 |只看作者 |坛友微信交流群

回帖奖励 +2

看看

使用道具

17
qingbo0221 发表于 2014-2-26 16:43:36 |只看作者 |坛友微信交流群

回帖奖励 +2

看看

使用道具

18
xtldy 发表于 2014-2-26 16:49:08 |只看作者 |坛友微信交流群
其实,统计学中的抽样理论就在于通过样本来推测总体,为什么用样本数据而不用总体数据?大家可以想想我们国家为什么隔10年才进行一次全国人口普查,原因很简单进行人口普查需要耗费大量的人力、物力和财力。现在之所以出现了“大数据”之说,关键就在于借助信息科学技术,使得数据获取和处理都相对容易一些。如果有了总体数据,当然就不需要进行推断了!

使用道具

19
stone20025 发表于 2014-2-26 16:51:27 |只看作者 |坛友微信交流群

回帖奖励 +2

没啥矛盾,只是侧重点不一样罢了
stone20025

使用道具

20
yangkongsong 在职认证  发表于 2014-2-26 17:09:16 |只看作者 |坛友微信交流群

回帖奖励 +2

不错,有道理。
交流、学习 ...

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-27 04:37