|
1.在因变量为连续变量的情形下,我们常常遇到:自我选择和反向因果的内生性问题。比如,北京发展的好,因为这里有许多优秀的人才(自我选择);人才促进了增长,而增长又吸引了人才(反向因果)。
我们一般采用 工具变量的方法,比如选择滞后期,解决反向因果;引入其他变量,解决自我选择问题。
2.在truncation 数据中,有些变量我们无法观测到。比如我们的统计数据是年营业收入500万元以上企业的。500万元以下的看不到。为了解决这个问题:
(1)出现了heckman模型。他设定了两个方程,其中一个是选择模型。
(2)出现了内生转化模型。也是设定选择模型。命令是:movestay
请问一下:这两种情况,是一回事吗?能用heckman模型和内生转化模型,解决自我选择和反向因果吗?
我的回答:
1和2是两个不同的问题。我觉得你表达的已经很清楚了,呵呵。
在1中,这其实是找出真实的因果关系,譬如是优秀的学生才能保送研究生,还是保送研究生后导致了学生更加优秀。看下面的例子:
y=x*a+z*b+e
y: 学生成绩
x:学习时间
z:学生的特征
e:error term
那这个模型的意思是:一个学生学习成绩的高低,可以有他/她的学习时间来解释;另外的可能性是可能学生学习成绩好,直接导致了他要调整自己的时间以保证自己的成绩,那回归就变为
x=y*d+z*f+ epsilon
显然,x和y是相关影响的。有两个问题要处理:到底是谁导致了谁变化:如何处理内生化关系。
要处理第一个问题,可以回归
y=x*a1+x_1*a2+x_3*a3+z*b+e
x=y*d1+y_1*d2+y_3*d3+z*f+ epsilon
如果x的滞后期项跟y不相关(上学年,上上学年的学习时间跟本期学习成绩无任何关系)这个假设成立,那么就不用考虑工具变量;如果假设不成立,那就得加入工具变量,比如学校图书馆的面积大小等等解决内生化问题。
同理可解释第二个回归。
对于2,heckman 2步法,是解决样本偏差问题的。用同样的例子解释
假如上面的回归表明,是学习时间导致了学习成绩存在差异,那么我们的回归模型应该是
y=x*a+z*b+e
但是由于学校规定不及格的学生学习成绩统一为0(truncate),所以我们手头1000个学生的观察值,其中的100个不及格的学生我们不知道他的真实成绩,所以回归的时候,stata默认值回归及格的学生。这就带来一个问题:我们得到的回归结果(学习时间的系数),可能不是无偏最优系数;原因在于回归所使用的学习成绩并不是随机获取的(我们“忽视”了不及格的那一部分),这就是sample selection bias,即heckman 2步法要解决的问题。
不知是否解释清楚
|