意思是说,在进入研究者的研究样本时,进入的观察点和不进入的观察点之间有一些不被研究者观察到的区别(unobservable variations)。如果在研究中对这些区别不加控制,则产生误差(error);又如果这些误差与要研究的自变量之间有相关性,则回归分析中就会出现偏差(bias)。
举例说明:目的是研究某一培训项目对工人工资的提高影响。如果培训项目的参加人员不是随机确定,而是由工人自己决定,那么可能会出现上面所说的情况。因为有动力有精力的工人参加培训的可能性大,所以最终无法确定是工人自身的动力和精力,还是培训项目的效用,造成了工人工资的提高。
那么怎么解决这个问题呢?Heckman提出的办法就是要两步走:第一步先估计不同观察点进入样本的可能性,并依此算出(inverse Miller's ratio),然后在第二步中把估算出的(inverse Miller's ratio)作为一个另外的解释变量。
具体的操作,在Stata中有现成的命令:heckman,或heckprob (如果因变量是虚拟变量)。这种做法即是selection correction。
|