人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › Stata专版 › ~~~请教各位大牛，受限因变量，该选择哪种模型~~~

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 下一页

发帖

楼主: angelmujia

4497 10

[数据管理求助] ~请教各位大牛，受限因变量，该选择哪种模型~ [推广有奖]

1关注
3粉丝

博士生

76%

还不是VIP/贵宾

威望: 0 级
论坛币: 1 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 9308 点
帖子: 209
精华: 0
在线时间: 489 小时
注册时间: 2009-5-12
最后登录: 2021-1-22

angelmujia 发表于 2014-7-24 19:15:48 |显示全部楼层 |坛友微信交流群

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

各位大牛们，现在我要针对ZFRD支持的影响因素进行分析，因变量是ZF的RD资金投入，一共有340个样本，其中大概只有140个样本ZF的RD支持是0，也就是说ZF对其中140个企业是没有RD资金支持的。而剩下200左右的样本，ZF支持都是有的，数值也是连续的，从5到几万不等。我现在想分析的是：1，ZF有选择性的支持哪些企业，这种选择收到哪些因素影响？2，ZF具体对某个企业支持的幅度大小又受到哪些因素影响？自变量我是选好的，比如企业规模，企业成立时间等等。
鉴于因变量是受限的，我有点迷惑，到底选择断尾回归模型（Truncated regression）还是截取回归模型（Tobit regression），或是样本选择模型（Heckman two step）？想选用hekman模型，先判断选择的影响因素，再去看结果的印象因素，但对heckman不是很了解。烦请各位论坛大神们，帮我看下。谢谢了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

关键词：受限因变量因变量 regression regressio truncated 因变量模型

相关帖子

使用道具举报

luisluan 发表于 2014-7-25 09:19:41 |显示全部楼层 |坛友微信交流群

1.用logit就行，支持多大都是有支持，设置为1，没支持的设置为0，直接分析就行了。
2.用ols就行，因为是分析给定给支持的企业，没支持的样本就排除在外了。

这个事基本用不上heckman，你研究的不是ZF的支持对其他因素的影响，也用不大上truncated 回归，truncated回归是研究样本中部分数据被截断、忽略而无法获取的。比如选某类型的运动员要求必须170以上，而研究的问题又是全部身高的运动员的某种能力，你这个问题和这个情况不太一样。

使用道具举报

angelmujia 发表于 2014-7-25 09:49:10 |显示全部楼层 |坛友微信交流群

luisluan 发表于 2014-7-25 09:19
1.用logit就行，支持多大都是有支持，设置为1，没支持的设置为0，直接分析就行了。
2.用ols就行，因为是分 ...

谢谢这位大牛兄台的回答，辛苦了。

使用道具举报

angelmujia 发表于 2014-7-25 09:52:39 |显示全部楼层 |坛友微信交流群

luisluan 发表于 2014-7-25 09:19
1.用logit就行，支持多大都是有支持，设置为1，没支持的设置为0，直接分析就行了。
2.用ols就行，因为是分 ...

说的很有道理，受教了。我的问题是研究ZF对企业的RD支持会受到哪些因素影响，比如企业的规模，企业自身RD投入，企业的年限等等。我采集到三百多个样本，有一百多个，ZF支持为0，也就是说这三百多个企业，ZF是有选择性的支持的。
我是想探究ZF有选择性的支持会受到哪些因素影响？然后，ZF对那些支持的企业的支持数额又会受到哪些因素影响？我的数据，有点像censored distribution，就是截取回归，似乎用tobit回归更合适；但我又觉得ZF有个选择的过程，heckman是不是更合适些？

使用道具举报

angelmujia 发表于 2014-7-25 09:58:38 |显示全部楼层 |坛友微信交流群

luisluan 发表于 2014-7-25 09:19
1.用logit就行，支持多大都是有支持，设置为1，没支持的设置为0，直接分析就行了。
2.用ols就行，因为是分 ...

而且三百多个样本中，自变量的数据都是有的。也就是说ZF支持为0的样本，自变量的数据也是存在的。

使用道具举报

hiderm 发表于 2014-7-25 11:06:53 |显示全部楼层 |坛友微信交流群

我觉得应该是用 -heckman- 命令

第一步: 考察ZF是否对样本企业提供研发支持, 因变量=0 代表不支持, =1代表支持, 考察的是ZF是否支持的决策受到哪些因素的影响.

第二步: 对于ZF支持的企业, 即第一阶段因变量取值为1的企业, 考察ZF的支持力度( 比如资助金额的大小)受到哪些因素的影响.

对于第二步, 只有那些在第一步时因变量取值为1的观测案例(obs) 才能观测到ZF支持的力度. 所以这是一个带有样本选择问题的两阶段回归, 属于从属截尾(国内多译为偶然截尾, 是不妥当的, 没有反映出概念的本质)

heckman 的使用方法, 可参见人大出版社出版的<用stata学习计量经济学>, 这本书翻译的质量不高, 可参考英文原版(坛内有电子版, 最好下载矢量版, 比较清晰): An Introduction to Modern Econometrics Using Stata, 作者是 Baum

重点看: 10.4 Incidental truncation and sample-selection models

使用道具举报

angelmujia 发表于 2014-7-25 14:00:06 |显示全部楼层 |坛友微信交流群

hiderm 发表于 2014-7-25 11:06
我觉得应该是用 -heckman- 命令

第一步: 考察ZF是否对样本企业提供研发支持, 因变量=0 代表不支持, =1代 ...

谢谢您的指点迷津。我本来是想用heckman来做的！还有一点我想问下，既然我的数据特点是截取回归的数据，理论上说应该用tobit模型来做。但我想分两块，第一用probit看ZF是否支持的影响因素有哪些；第二tobit 去看ZF支持的数量多少又受到哪些因素影响。把probit+tobit放在一篇论文中，合适吗？