|
从概念上来说:
标准差计算的是一组数据偏离其均值的波动幅度,不管这组数是总体数据还是样本数据。你看deviation,说的就是“偏离”,只是在翻译为中文时,失去了其英文涵义。
而标准误,衡量的是我们在用样本统计量(常见如均值、方差等)去推断相应的总体参数的时候,一种估计的精度。样本统计量本身就是随机变量,每一次抽样,都可以根据抽出的样本情况计算出一个不同的样本统计量。理论上来讲,从既定的总体中按照预定的样本规模,穷尽所有可能抽出的样本(假设为N),根据这些样本可以计算出N个样本统计量,把这些统计量分组绘成直方图,则这个直方图就反应了样本统计量的分布情况(即抽样分布)。既然是分布,当然就有均值和方差。如果样本统计量的均值就是总体均值,这就是无偏估计。如果样本统计量的方差在所有可能的理论统计量里面最小,这就是有效估计。因此,抽样分布的标准差(也就是标准误)越小,则用样本统计量去估计总体参数时,精度就越高。所以,你明白为什么叫标准误(standard error)了。一般意义上讲,standard error反应的是用样本统计量去估计总体参数的时候,可能发生的平均“差错”。
不妨这么理解吧,如果总体平均值是160,抽样误差是5,就是说用抽得的样本平均数去推断总体平均数,差错可能在5左右;如果抽样误差是3,精度当然就高啦。不同的总体、不同的样本规模,这个精度当然是不同的。如果总体的变异本身很小(也就是总体标准差小),样本规模越大,这种情况下精度当然就高啦。另外,根据大数定律,当样本规模大到一定程度的时候,不管总体是什么分布,样本平均数都会近似服从正态分布,这就为计算抽样误差(标准误)提供了理论依据。
最后总结:标准差还是标准误,注意看其英文原意,就可以把握个八九不离十了。前者反映的是一种偏离程度,后者反映的是一种“差错”,即用样本统计量去估计总体参数的时候,对其“差错”大小(也即估计精度)的衡量。
|