我的主要问题有两个:1 为什么我们找对照组的原则是找选择进入项目的概率? 2 为什么用PSM的方法就能够解决自选择偏差问题
为帮助理解PSM,我自己想的例子,大家看看我分析的对否:
例如:想研究A这个人上研究生对他收入的影响,本应该用Y1(上了研究生后的收入)—Y0(如果他不上研究生,他的收入)。正因为Y0是反事实的,所以要找个对照组。如果Z是影响他选择上不上研究生的变量,假设如果用logit模型估计出了他上研究生的概率为0.8,而B这个人没有上研究生,B的概率刚好也是0.8,所以我们就选择B这个人作为A的对照组,可是为什么要用上不上研究生来找对照组,而不是找和A在没有上研究生之前收入最接近的人作为对照组呢?因为最后落实到的还是收入,应该找收入最接近的作为对照组,而不应该是找上不上研究生这个政策选择概率最接近的呀??
这个就是我迷糊的第一点
请继续看:
伍德里奇的《横截面与面板数据的经济计量分析》一书中,讲到这个问题,他有句原话翻译过来是(我买的是王忠玉翻译的中文版本)“在大多数情况下,一些个体至少部分的决定他们是否被处理,而他们的决策与处理的好坏y1-y0或许是相关的。换句话说,自选择会进入到处理之中。”。 我是这样理解关于自选择所导致样本偏差的问题:例如如果选择上研究生的这些人,家里都是有**背景的,这样他们上完了就可以依靠家里的关系留在**工作,有研究生学历以后官会升的很快,所以这些人就更愿意去选择上研究生。所以如果用这些人以后的收入减去直接减去没有上研究生的人的收入就不仅是上研究生项目的影响,还包括了家里背景所带来的影响。我的意思就是: 1 家里有背景这个因素假设对你现在的收入是没有影响的(假设研究生文凭是个敲门砖,没有的话父母也帮不了你),只有你上了研究生进入**部门才有影响。(当然如果某些因素同时存在项目前对收入有影响,对进入项目后还多出来像家庭背景这种因素的影响,前者那种影响是可以通过相减而去除的,为了简化问题,我只列举了只存在后者这类的影响。)
2 如果我们以是否选择进入项目的概率作为找对照组的原则,假设影响进入的概率只有家庭背景这个因素,那么找到了一些家庭背景和实验组相似的人,但他们没有选择进入项目,这样,由实验组和所选的对照组所构成的新样本给人的感觉好像的确是随机的,因为概率相同的情况下,有些人选择进入了,而有些人没有选择进入。
我迷糊的第二点:即使用以上新样本中实验组的收入-对照组的收入也没能剥离出家里有背景这个因素对实验组收入的影响呀。因为这个影响只发生在实验组,非实验组是没有的,因此两者相减也减不掉呀!就是不太明白样本存在自选择的情况下,为什么用PSM的方法就能够解决自选择偏差问题??
请高手指点下!!!


雷达卡



京公网安备 11010802022788号







