这个观点简单地把大数据理解为大的数据,我认为这是不准确的。
大数据除了大,还有其他两个方面含义。
1. 大, 多大叫大数据呢? 至少需要一个标准,数据量超过计算机内存。也就是说,即使你执行抽样技术选取样本分析,你也需要技术来克服这个问题。
2.复杂,传统的数据库,sql,将数据格式好后存到数据库里,分析人员再调出来。而如今数据分布在不同数据库,比如亚马逊的销售记录,google 的搜索记录,医院的门诊数据,这些数据都存在不同数据库中,大数据解决的就是如何集合分析这些没有格式化的数据。
3. 动态,销售,搜索,和门诊数据不仅多而杂,还在不断动态变化中。比如禽流感病例,如何迅速搜集并分析这些数据变得非常重要。
大数据 是因 网络技术等硬件技术发展倒逼而发展起来的,所这大数据的到来,统计理论也需要更新。比如这么大的数据,传统的 P value是否还有效? 动态的 数据更新是否需要进行 bonferroni correction?( Frequenist)还是给 Bayesian Statistics 发展的一次机遇?
|