自我选择、反向因果与heckman模型 - Stata专版

95关注
111
粉丝

学科带头人

83%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 11846 个
通用积分: 124.0286
学术水平: 56 点
热心指数: 84 点
信用等级: 52 点
经验: 28826 点
帖子: 1588
精华: 2
在线时间: 2095 小时
注册时间: 2007-4-28
最后登录: 2024-11-19

楼主

区域经济爱好者 发表于 2012-11-25 23:05:37 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

大家好！

1.在因变量为连续变量的情形下，我们常常遇到：自我选择和反向因果的内生性问题。比如，北京发展的好，因为这里有许多优秀的人才（自我选择）；人才促进了增长，而增长又吸引了人才（反向因果）。
我们一般采用工具变量的方法，比如选择滞后期，解决反向因果；引入其他变量，解决自我选择问题。

2.在truncation 数据中，有些变量我们无法观测到。比如我们的统计数据是年营业收入500万元以上企业的。500万元以下的看不到。为了解决这个问题：
（1）出现了heckman模型。他设定了两个方程，其中一个是选择模型。
（2）出现了内生转化模型。也是设定选择模型。命令是：movestay

请问一下：这两种情况，是一回事吗？能用heckman模型和内生转化模型，解决自我选择和反向因果吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏27 回帖

关键词：heckman模型 heckman Man HEC truncation 模型

回帖推荐

fgleric 发表于2楼查看完整内容

1.在因变量为连续变量的情形下，我们常常遇到：自我选择和反向因果的内生性问题。比如，北京发展的好，因为这里有许多优秀的人才（自我选择）；人才促进了增长，而增长又吸引了人才（反向因果）。我们一般采用工具变量的方法，比如选择滞后期，解决反向因果；引入其他变量，解决自我选择问题。 2.在truncation 数据中，有些变量我们无法观测到。比如我们的统计数据是年营业收入500万元以上企业的。500万元以下的看不到。为了 ...

已有 1 人评分	经验	学术水平	热心指数	收起理由
SpencerMeng	+ 60	+ 1	+ 1	优秀提问帖

总评分: 经验 + 60 学术水平 + 1 热心指数 + 1 查看全部评分

本帖被以下文库推荐

· 数据分析|主题: 175, 订阅: 70

感兴趣领域——宏观经济、区域经济与技术经济

沙发

fgleric 发表于 2012-11-26 08:24:43

1.在因变量为连续变量的情形下，我们常常遇到：自我选择和反向因果的内生性问题。比如，北京发展的好，因为这里有许多优秀的人才（自我选择）；人才促进了增长，而增长又吸引了人才（反向因果）。
我们一般采用工具变量的方法，比如选择滞后期，解决反向因果；引入其他变量，解决自我选择问题。

2.在truncation 数据中，有些变量我们无法观测到。比如我们的统计数据是年营业收入500万元以上企业的。500万元以下的看不到。为了解决这个问题：
（1）出现了heckman模型。他设定了两个方程，其中一个是选择模型。
（2）出现了内生转化模型。也是设定选择模型。命令是：movestay

请问一下：这两种情况，是一回事吗？能用heckman模型和内生转化模型，解决自我选择和反向因果吗？

我的回答：
1和2是两个不同的问题。我觉得你表达的已经很清楚了，呵呵。
在1中，这其实是找出真实的因果关系，譬如是优秀的学生才能保送研究生，还是保送研究生后导致了学生更加优秀。看下面的例子：

y=x*a+z*b+e
y: 学生成绩
x：学习时间
z：学生的特征
e：error term
那这个模型的意思是：一个学生学习成绩的高低，可以有他/她的学习时间来解释；另外的可能性是可能学生学习成绩好，直接导致了他要调整自己的时间以保证自己的成绩，那回归就变为
x=y*d+z*f+ epsilon

显然，x和y是相关影响的。有两个问题要处理：到底是谁导致了谁变化：如何处理内生化关系。
要处理第一个问题，可以回归
y=x*a1+x_1*a2+x_3*a3+z*b+e
x=y*d1+y_1*d2+y_3*d3+z*f+ epsilon
如果x的滞后期项跟y不相关（上学年，上上学年的学习时间跟本期学习成绩无任何关系）这个假设成立，那么就不用考虑工具变量；如果假设不成立，那就得加入工具变量，比如学校图书馆的面积大小等等解决内生化问题。
同理可解释第二个回归。

对于2，heckman 2步法，是解决样本偏差问题的。用同样的例子解释
假如上面的回归表明，是学习时间导致了学习成绩存在差异，那么我们的回归模型应该是
y=x*a+z*b+e
但是由于学校规定不及格的学生学习成绩统一为0（truncate），所以我们手头1000个学生的观察值，其中的100个不及格的学生我们不知道他的真实成绩，所以回归的时候，stata默认值回归及格的学生。这就带来一个问题：我们得到的回归结果（学习时间的系数），可能不是无偏最优系数；原因在于回归所使用的学习成绩并不是随机获取的（我们“忽视”了不及格的那一部分），这就是sample selection bias，即heckman 2步法要解决的问题。

不知是否解释清楚

已有 6 人评分	经验	论坛币	学术水平	热心指数	信用等级	收起理由
刘77			+ 1			精彩帖子
泽鱼好鸣水			+ 1	+ 1	+ 1	精彩帖子
伊布张燕			+ 1	+ 1		精彩帖子
2013201083		+ 5	+ 1	+ 1	+ 1	分析的有道理
muzituchuan		+ 1	+ 1	+ 1	+ 1	精彩帖子
Sunknownay	+ 100	+ 10	+ 1	+ 1	+ 1	热心帮助其他会员