|
从楼主的问题来看,可能对于如下的问题理解不深:究竟为何要做倾向得分匹配?
这里通过一个尽量简化的小例子来说明一下,例子的内容保证各个专业的同学都能看得懂!
一、倾向得分匹配的目的:与其说是解决内生性或稳健性问题,不如直接说解决样本数据的非随机性和不均衡问题。
比如,研究问题是分析读研对于毕业5年后工资的影响。假设有750份样本,其中280份读了研,470份未读研。这个样本就可能是不随机和不均衡的。原因有两个:其一,学生本科毕业是否读研并非完全随机,可能受到了学生特质因素(性别、毕业时的年龄、父母家庭的收入状况,本人的GPA)、学校因素(大学排名)以及毕业当年就业形势的影响(就业形势不好的话读研的人数就会增多);其二,分析读研对于工资的影响,最好的比较是同一个人(比如张三)读或不读研究生的工资水平差异。问题是:一旦张三读了研究生,我们就无法得知其不读研究生的工资情况(不可观察),反之亦然。这些问题统称为样本的自选择偏误问题。
二、解决办法的思路:既然无法得知张三不读研究生的工资,退而求其次,找一个各方面综合情况(倾向得分)最接近张三但未读研究生的样本来与张三配对(匹配)后进行工资对比。这就是倾向得分匹配的初衷!
三、因此,实证中使用倾向得分匹配的目的是加强主回归结果的稳健性。这样一来,实证的基本过程就应该是:
1、首先进行主回归模型的实证,得到结果1。考虑到可能存在样本的自选择偏误问题,结果1的系数可能存在偏误,就要进行稳健性加强。加强结论的稳健性有许多方法,倾向得分匹配只是其中的一种而已。
2、其次,利用倾向得分匹配进行稳健性检验。先要确定分组变量(是否读研),分组变量最好是一个二元0-1变量;再确定哪些因素可能影响这个分组变量(例如,个人特质因素,学校因素,就业形势因素等);之后,利用probit或logit回归使用那些影响因素对于分组变量进行拟合(因变量:分组变量;自变量:影响因素,如有必要再加上一些控制变量,如年份、地区等);再后,利用probit或logit回归的结果对样本中每个观察进行预测,其结果是每个学生可能读研的条件概率。在本例中,这个概率就可以作为是否读研的“倾向得分”。
3、有了各个样本的“倾向得分”,就可以进行匹配。匹配的原则是:将每一个读了研的样本(称为处理组)与样本中未读研的(
称为控制组)进行逐一匹配。常见的匹配方法有4-5钟,最常用的还是最简单的一对一配对(如果处理组的样本少于控制组的,自然容易得到一对一配对;如果处理组的样本多于控制组的话,那岂不是控制组的样本不够分的了?死脑筋!这时可以把控制组反过来做处理组哈!统计程序可不管到底哪个是合理的,只要把研究问题反过来看就可以了,比如把研究问题改成不读研对于工资的影响,得到的结果是一样的,行文时正反两面说就可以啦)
4、如果处理组与控制组的配对不理想怎么办?比如,有一些处理组的样本未得到配对。可以通过适当调节匹配容差参数解决这个问题。匹配容差可以从0.01开始试验,但一般不要超过0.05就可以了。
5、将处理组和与其配对成功的控制组样本合成后得到配对样本。
6、得到配对样本后并不是马上就可以再次回归了,还要检验一下配对样本的均衡性。均衡性的检验方法有两种:其一、利用stata的pstest,both命令(要在psmatch2之后)的输出结果。检查M行(M=Matched,即配对样本)中处理组(Treated)和控制组(Control)每个变量的t检验结果的显著性(p>|t|)。除了因变量(工资)和主解释变量(是否读研)以外的变量最好都不显著!即不存在显著的统计差异,换句话说这些变量之间的差异不会引起因变量(工资)的显著差异。当然,因变量(工资)和主解释变量(是否读研)在处理组和控制组之间必须是显著差异的,不然本研究问题就不成立了。原因:主解释变量(是否读
研)对于处理组(1=读研)和控制组(0=未读研)肯定是显著差异的;因变量(工资)对于处理组(1=读研)和控制组(0=未读研)肯定也是显著差异的,如果不显著的话,就说明读研和不读研的工资没区别了,本研究问题就没有意义了。另外,从因变量(工资)在处理组(1=读研)和控制组(0=未读研)的均值上可以看到大小不同,如果处理组的均值高于控制组的,也可以佐证本研究的结论(读研有助于获得更高的工资)。其二、直接对配对样本中的各个变量在处理组和控制组之间做配对t检验,检验结果的查看方法同上。
还可能出现一种令人尴尬的情况,即除了因变量(工资)和主解释变量(是否读研)以外的变量也有显著的,说明除了主解释变量(是否读研)引起了处理组和控制组因变量的不同之外,该变量也对因变量在处理组和控制组的不同产生了影响。导致的问题是不容易说清楚主解释变量(是否读研)对于因变量(工资)的影响作用了,这使得问题变得复杂化了。如果想要偷懒的话,就把该变量直接去掉算了:-)
四、利用配对样本再次进行回归,回归的模型还是最初实证的那个主回归模型,得到结果2。将结果2的系数符号方向和显著性与结果1的对比,如果一致的话,就说明结果1的结论是稳健的。当然,还可以继续使用Heckman两阶段法、变量测度替换法、细分样本组等其他方法进一步加强你的结论,这些不是这里的重点。
费劲儿敲了这么多字,希望能够帮到诸位学子!
|