扫码关注公众平台
在中介效应的检验过程中,你应该听说过名为Bootstrap(动词形式)或Bootstrapping(动名词形式)的方法。什么是Bootstrapping?其原理是怎样的?文章中常出现的“5000”指的是样本量大小吗?Percentile confidence interval和Bias-corrected confidence interval有什么区别?对其他统计量或估计值(比如,相关系数,调节效应等)可以用Bootstrapping构建置信区间吗?请集中注意力,本文将简要介绍有关Bootstrapping,你需要了解的内容。
在实证研究中,有些统计量的抽样分布是已知的,如,回归方程的系数服从t分布。已知抽样分布的统计量,通过分布曲线的数学公式可以准确得出显著性和置信区间。与之相对,某些统计量的抽样分布则不具有规律性,没有具体的公式可以计算出显著性和置信区间。当我们不知道某一个统计量的抽样分布如何,或者当一个统计量的抽样分布不是简单的分布形态时,就要借助Bootstrapping了。
本文将研究人员收集到的样本称为原始样本,对原始样本进行有放回重复抽样而形成的样本称为子样本。请注意,将重复抽样形成的样本称为“子样本”,不代表抽取出来的样本数比原始样本小。“子样本”只是反映了“手上的样本”是“母体”,从中再抽出来的是由“母”而生的“子”而已。
以X为预测变量,Y为结果变量,M中介变量的简单中介关系为例。假设原始样本数为n,样本中的每一个体都被打上1,2,3……n的编号。根据已有的n个个体组成的样本数据,可以计算出原始样本的间接中介效果(是一个数值,由回归方程的系数相乘得出,不了解中介效应的读者可以把此例转换为样本的平均值等其他统计量)。因为间接中介效果这个统计量的抽样分布不服从严格的正态分布,所以需要Bootstrapping得出该统计量的抽样分布。具体执行步骤如下:
(1)从原始样本中随机抽取出一个个体(假设编号为3),记录研究所用到的各个变量的测量值并放回,作为子样本的第一个个体。随后,再随机抽取出一个个体(假设编号为4),记录并放回,作为子样本的第二个个体。然后,继续随机抽取出一个个体(假设编号为3),记录并放回,作为子样本的第三个个体。重复此步骤,直到得到一个新的大小为n的子样本。通过对子样本进行计算,得到一个新的间接中介效果。
之所以抽取与原始样本大小相同的子样本,是因为样本量的大小会影响抽样分布的形态。另外,各位可以看到,在同一个子样本内部,编号为3的样本重复出现,这其实是由重复抽样(有放回抽样)的性质而决定的。之所以进行重复抽样,小编认为可以这样理解:
如果采取不重复抽样,想得到样本量为n的子样本,只能得到原始样本的复制品,不能模拟对总体的抽样过程。虽然在本例中编号3的个体被抽中了两次,但此个体给出的是其特征或某些变量的测量值(比如身高,工作满意度等),代表的是具备同样特性的个体。在对总体进行抽样的过程中,不论采用重复抽样(有放回)还是不重复抽样(无放回),同一份样本中总是可能出现具备相同测量值(特性)的个体。所以,对原始样本进行重复抽样能够模型对总体进行抽样的过程。
(2)按照重复抽样的过程,持续抽取,直到得到k个样本量为n的子样本。k在5000~10000次为宜。计算出k个间接中介效果,并从小到大排序(其他统计量的处理方式与此相同)。
(3)如果想要得到95%的置信区间,则选取位于第2.5%和97.5%的值作为上下限,两者构成置信区间。如果置信区间不包含0,我们就有95%的把握说总体的间接中介效果不为0。
以上就是Bootstrapping的基本原理和思想。上述步骤所得到的置信区间被称为Percentile confidence interval。常见的还有Bias-corrected confidence interval,该置信区间是在Percentile confidence interval的基础上进行调整而得到的,具体计算步骤这里就不再赘述,一般的软件都会内建算法。另外,本文提到的置信区间只是最常见的两种,还有其他基于Bootstrapping的置信区间构造方法可供选择,感兴趣的读者可以自行查阅资料。
读完本文,你应该了解:
(1)Bootstrapping是一种根据原始样本对总体参数进行统计推断的方法。其基本原理是对单一样本进行重复抽样,获得多个与原始样本大小相同的子样本,得到总体参数的近似抽样分布,进而确定置信区间。
(2)熟悉Percentile confidence interval的计算方式。
(3)Bootstrapping除了用于中介效应的检验,还可以用于构建其他统计量和估计值的置信区间。
(4)文献中常见的数字“5000”,指的是抽取得到5000份样本,而不是样本大小,样本大小与原始样本相同。