Mark Twain曾经说过Figures never lie but liars sure can figure。 但实际上人们很容易被数据迷惑。举几个例子。
- 偶然相关关系。一个经常听我老师提起的例子是拿南开大学大中路上树的高度和每年新生的身高作相关性分析,你会发现两者相关性非常强,可在仔细想一想,两者又是怎么牵扯上关系的呢。 我们无法从这里面分析出因果关系,仅仅是相关关系而已,这种相关关系很脆弱,没有因果关系,我们不知它怎么产生 ,也就意味着我们不知道它何时消失。
- 统计工具有时无法涵盖使用者的个人需求。假如你想进一所高校读研究生,你会看到一份或者多份的高校排名,这个时候你的决定可能很大程度上被这个排名左右,但是这个排名根本没有把你的学习目标,个人喜好等个人因素考虑进来。这样你就很难定位最适合你的学校。
- 统计学上的显著性差异和实际差异容易被混淆。在我看来“显著性”这个统计术语是被滥用了。当样本符合假设前提时,it's ok. 但很多时候这些前提并非严格符合,而是我们的假设。例如我们比较北京和南京的学生身高差异,选取随机样本做一个两样本t检验,其中样本正态的前提通常只是假设的,在样本量较少的情况下,我们很有可能会得到两地学生身高是有显著性差异的。 但问题是我们无法确定到底多大的样本量才足够精确,因此统计学上的显著性差异应该表示样本量足够多可以清晰地反应出差异性,非显著性则应表示样本量不足以反映实际的差异。不过很多时候“显著性"这三个字太过诱人,容易让人做出错误的决定。
随着统计方法和统计工具的增多,数据分析的准确性应该会提高。但我个人认为未来影响数据分析准确性最重要因素不是统计方法和统计工具,而是数据本身。
转自 知乎