关键概念:均值标准误(SEM)
什么是均值标准误(SEM)?
均值标准误(Standard Error of the Mean, SEM)用于量化均值的精确性。它衡量的是样本均值与真实总体均值的偏离程度,其单位与数据的单位一致。GraphPad Prism软件使用“SEM”这一缩写,但有些(坚持使用)“SE”作为缩写。
均值标准误(SEM)比标准差(SD)大还是小?
均值标准误(SEM)始终小于标准差(SD)。在大样本情况下,SEM会比SD小很多。
然后和解读均值标准误(SEM)?
尽管科学家们常以均值和SEM的形式呈现数据,但解读SEM的含义并非易事。相比之下,解读由SEM计算得出的95%置信区间要容易得多。
对于大样本(比如样本量大于10),可使用以下经验法则:
- 67%置信区间大致从均值向两侧各延伸1个SEM的距离
- 95%置信区间大致从均值向两侧各延伸2个SEM的距离
这些乘数(1.0和2.0)并非绝对固定值,实则源于t分布,且取决于样本量。对于小样本,尤其是样本量(N)小于10时,这些经验法则就不太准确了。
均值标准误(SEM)和标准差(SD)是一回事吗?
不是!
所有标准误都是均值的标准误吗?
不是。统计计算几乎可以对从样本数据得出的任意参数计算标准误。Prism软件能够计算线性回归中斜率的标准误,以及非线性回归中任意参数(如速率常数)的标准误。在众多期刊中,“SE”这一缩写可用于表示任意标准误,包括均值的标准误;而“SEM”这一缩写则始终专门用于表示均值的标准误。
计算均值标准误(SEM)
均值标准误如何计算?
均值标准误(SEM)通过将标准差(SD)除以样本量(N)的平方根来计算。记住这个关系很有用,因为它能帮助您解读已发表的数据。如果给出了SEM,但您想知道SD,那就用SEM乘以N的平方根。
用Excel计算均值标准误
Excel没有直接计算均值标准误的函数。不过,依据上述公式,利用标准差来计算SEM并不难,公式如下:
=STDEV()/SQRT(COUNT())
举例来说,要是您想计算单元格B1到B10中数值的SEM,可使用这个公式:
=STDEV(B1:B10)/SQRT(COUNT(B1:B10))
COUNT()函数会统计指定范围内的数值个数。要是您不担心有缺失值,也可以直接输入N(样本量)。这种情况下,公式就变成:
=STDEV(B1:B10)/SQRT(10)
标准差(SD)与均值标准误(SEM)并非同一概念
人们很容易混淆标准差(Standard Deviation, SD)和均值标准误(StandardError of the Mean, SEM)之间的区别。以下是关键差异:
- 标准差(SD)用于量化数据的离散程度,即数值之间的差异大小
- 均值标准误(SEM)用于量化对总体真实均值的知晓精准度,它同时考虑了标准差(SD)的值和样本量
- 标准差(SD)和均值标准误(SEM)的单位相同,均为数据的单位
- 根据定义,均值标准误(SEM)始终小于标准差(SD)
- 样本量越大,均值标准误(SEM)越小。这符合常理,因为大样本的均值往往比小样本的均值更接近总体真实均值。即便数据离散程度很高,有了极大样本,您也能非常精准地知晓均值。
- 随着获取的数据增多,标准差(SD)不会呈现可预测的变化。从样本计算得出的SD,是对总体SD的最佳估计。当您收集更多数据时,对总体SD的评估会更精准。但您无法预测大样本的SD会比小样本的SD大还是小(严格来说并非完全如此,是方差,即SD的平方,不会呈现可预测的变化,不过SD的变化微乎其微,远小于SEM的变化)。
需要注意的是,几乎针对从数据中计算的任意参数,都能计算标准误,并非仅针对均值。“标准误(standard error)”这一表述有点模糊,以上要点仅针对均值的标准误(standarderror of the mean)。
建议:何时绘制标准差(SD)与均值标准误(SEM)
若您要创建带误差线的图形,或制作含加减值的表格,需决定呈现标准差、均值标准误,还是其他统计量。通常,绘制均值搭配标准差或均值标准误,有更优替代方式。
若想展示数据的变异性
若每个数值代表不同个体,您或许想呈现数值间的变异性。即便每个数值代表不同实验室结果,展示个体变异性往往也有意义。
若绘制柱形图,且每个数据集的数值少于100个左右,创建散点图展示每个数值。还有什么比展示每个数值更好的方式呈现数值间变异性呢?若数据集数值超100个左右,散点图会杂乱。替代方法有箱线图、频率分布(直方图)或累计频率分布。
若绘制XY数据图,尤其有多个处理组时,绘制每个重复值可能让图形杂乱。这可以是第一步,让您全面查看数据。但展示数据时,可转为均值加误差线形式。
若要绘制均值加误差线,标准差量化重复值间的变异性。中位数搭配四分位距或全距的图形也是如此。绘制时,务必在图形本身或图例中说明误差线的计算方式。
若想要展示对均值测定的精确程度
若目标是用t检验或方差分析(ANOVA)比较均值,或展示数据与模型预测的契合度,您可能更关注精准测定均值,而非展示变异性。这种情况下,最佳方式是绘制均值的95%置信区间(也可能是90%或99%置信区间)。
均值标准误(SEM)呢?绘制均值搭配SEM误差线是常用方式,体现您对均值的知晓程度。SEM误差线唯一优势是更短,但相比置信区间,更难解读。尽管如此,SEM误差线在诸多领域是行业标准。
无论选哪种误差线,务必说明选择。仅看误差线是否重叠,所传递信息远不及预期。
若您想制作有说服力的“宣传内容”
若您的目标是强调数据中微小且不重要的差异,就把误差线展示为SEM,指望您的读者误以为它们是SD。
若您想掩盖数据中的大差异,就把误差线展示为各组的标准差,盼望读者误以为它们是标准误。
这种做法是Steve Simon在他出色的网络日志中提到的,当然他只是开玩笑。要是您没明白这个玩笑,那就复习一下SD和SEM之间的差异。
展示标准差(SD)或均值标准误(SEM)的替代方法
若您想要展示数据的变异性
若每个数值代表不同个体,您或许想要呈现数值间的变异性。即便每个数值代表不同的实验室实验,展示这种变异性往往也有意义。
若每个数据集的数值少于100个左右,创建散点图展示每个数值。还有什么比展示每个数值更好的方式呈现数值间的变异性呢?要是您的数据集超过100个左右,散点图会变得杂乱。替代方法可以是绘制箱线图、频率分布(直方图)或累计频率分布。
那展示均值和标准差(SD)怎么样呢?标准差的确能量化变异性,所以这确实是一种呈现变异性的绘图方式。但标准差只是一个数值,所以用来展示变异性的方式相当有限。展示均值和标准差误差线的图形,相比其他替代方式,信息量更少,而且所占空间也没更少,解读难度也没更低。我觉得绘制均值和标准差,比起绘制列散点图、箱线图或频率分布,没有任何优势。
当然,要是您确实决定展示标准差误差线,一定要在图形图例中说明,这样才没人会把它当成均值标准误(SEM)。[size=14.6667px]若您想展示对均值测定的精确程度
若您的目标是用t检验或方差分析(ANOVA)比较均值,或者展示数据与模型预测的契合度,您可能更关注数据对均值的精准界定,而非展示变异性。这种情况下,最佳做法是绘制均值的95%置信区间(也可能是90%或99%置信区间)。
那均值标准误(SEM)呢?绘制均值搭配SEM误差线是常用方法,用于体现您对均值的知晓程度。SEM误差线唯一的优势是更短,但相比置信区间,更难解读。
无论您选择展示哪种误差线,务必说明您的选择。仅看误差线是否重叠,所给出的信息远不及您预想的多。


雷达卡



京公网安备 11010802022788号







