楼主: smile_nana
15240 28

[回归分析求助] 内生变量是取三个值的非连续变量怎么处理? [推广有奖]

11
h3327156 发表于 2013-6-22 10:19:43
johnson90a 发表于 2013-6-22 09:09
谢谢老师,从您这儿真学到很多,有空了就把那些文献都找出来看看!

现在cmp结果跑出来了,对cmp方法 ...
1. 我个人认为,您要理解成类似两阶段的一种估计,我并不反对,但不要太绝对,通常带工具变数时,确实cmp有一滴点两阶段的味道。

2. 那个不是类似残差,您可以自己再执行一次 oprobit 【因变量用x1,自变量自行参照】,您会发现与您所谓的第二阶段定序probit回归是一模一样的,换言之,报表结果,第一张,是probit,第二张是oprobit,这两张都是一般的,这只是作为起始值让Stata方便去估计而以,第三张才是真正的在估计。怎么会完全看不明白????您不是说您执行过ivprobit,如果您执行过,这第三张表格正好可以与ivprobit对照。

3. 有关系数的含义,第一,上半截请参照一般probit在系数上的解释,下半截请参照一般oprobit在系数上的解释,第二,一个更能说服读者,也突显出您自己重要的贡献,其实要问您自己,只有您自己才最懂您资料的变量,还有,您自己想要藉由此模型去验证怎样的经济理论。确实就一般的小论文,第三张表格写上去就行了! 估计的结果可以与您先前的 ivprobit 做比较, 原则上希望 cmp 能估的更符合预期,希望啦,但现实世界,什么都有可能发生……像先前帖子中的演练参考,虽然粗浅也不严谨,但如果能较符合一般直觉的推论,就行了! 总之,用较新较适合的方法估计,取得较好的结果,与旧方法比较,我想,也算是挺有特色的论文罗! 当然,第一要义还是,您探讨的议题要相当能吸引人,或过去文献也一直在重视的议题。 祝  报告 顺利~~~~~~~~~

12
johnson90a 发表于 2013-6-22 12:40:13

。。。

h3327156 发表于 2013-6-22 10:19
1. 我个人认为,您要理解成类似两阶段的一种估计,我并不反对,但不要太绝对,通常带工具变数时,确实cmp ...
额,老师,第三个表格与ivprobit的报告形式不同诶。ivprobit的报告直接就是 因变量y,下面的系数分别是 X1~X5以及Z的。

但cmp第三张表格是上半截是不含工具变量Z的、y为应变量的普通probit模型的估计,但下半截是以内生变量X1为因变量的含有Z的方程估计,其中X2~X5就有两种系数了,我就不知道应该怎么看了。

麻烦老师再指点下,谢谢!

ps:老师 ,这个结果能否也和probit一样直接用mfx命令求边际影响呢。。。我用mfx对ivprobit结果求边际,结果一直出来warning: derivative missing; try rescaling variable jiankang ,不过最后结果倒也是有的,迷惑了

13
h3327156 发表于 2013-6-22 13:10:57
johnson90a 发表于 2013-6-22 12:40
额,老师,第三个表格与ivprobit的报告形式不同诶。ivprobit的报告直接就是 因变量y,下面的系数分别是 X1 ...

ivprobit 报告结果在主要方程会有z的系数? 除非是您要它报导第一阶段方程,这样才会有z的系数,而此时,方程的因变量是x1。

最后,我不太懂您在说什么。以下是演练,我也把 ivprobit 与 cmp 结果 放上,这很明显能比较,而且在这演练,我个人觉得可能cmp估出来是比较好的。

*演练指令程序
cmp setup
webuse laborsup

ivprobit fem_work  fem_educ other_inc (kids = male_educ), first
set more off

cmp (fem_work = fem_educ other_inc kids) (kids = fem_educ other male_educ), ind($cmp_probit $cmp_oprobit) tech(dfp) nolr
set more off

*以下是报表结果
ivprobit model with endogenous regressors           Number of obs   =        500
                                                  Wald chi2(3)    =     516.62
Log likelihood = -1114.5356                       Prob > chi2     =     0.0000

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
fem_work     |
        kids |   .6496594   .1128475     5.76   0.000     .4284823    .8708365
    fem_educ |    .049803   .0613487     0.81   0.417    -.0704383    .1700442
   other_inc |  -.0132919   .0101589    -1.31   0.191     -.033203    .0066192
       _cons |  -1.265932   .2529745    -5.00   0.000    -1.761753   -.7701113
-------------+----------------------------------------------------------------
kids         |
    fem_educ |   .0140181   .0230512     0.61   0.543    -.0311614    .0591976
   other_inc |   .0055303   .0036357     1.52   0.128    -.0015955    .0126562
   male_educ |  -.0262967   .0252374    -1.04   0.297    -.0757612    .0231677
       _cons |   1.847488   .4029947     4.58   0.000     1.057633    2.637343
-------------+----------------------------------------------------------------
     /athrho |  -1.974938   .9980159    -1.98   0.048    -3.931013   -.0188628
    /lnsigma |   .3060421   .0316228     9.68   0.000     .2440626    .3680216
-------------+----------------------------------------------------------------
         rho |  -.9622135   .0739981                     -.9992301   -.0188605
       sigma |   1.358039    .042945                      1.276424    1.444873
------------------------------------------------------------------------------
Instrumented:  kids
Instruments:   fem_educ other_inc male_educ
------------------------------------------------------------------------------
Wald test of exogeneity (/athrho = 0): chi2(1) =     3.92 Prob > chi2 = 0.0478




Mixed-process regression                          Number of obs   =        500
                                                  Wald chi2(3)    =     279.27
Log likelihood = -1051.9611                       Prob > chi2     =     0.0000

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
fem_work     |
    fem_educ |   .1109852   .0429822     2.58   0.010     .0267416    .1952288
   other_inc |  -.0233906   .0068003    -3.44   0.001    -.0367189   -.0100624
        kids |   .4790128   .1030322     4.65   0.000     .2770734    .6809522
       _cons |  -1.206673   .2751239    -4.39   0.000    -1.745906   -.6674404
-------------+----------------------------------------------------------------
kids         |
    fem_educ |   .0120007   .0178035     0.67   0.500    -.0228936     .046895
   other_inc |   .0049478   .0026728     1.85   0.064    -.0002909    .0101865
   male_educ |   -.035184    .014115    -2.49   0.013    -.0628489   -.0075191
-------------+----------------------------------------------------------------
/atanhrho_12 |  -1.353367   .4541162    -2.98   0.003    -2.243418   -.4633151
    /cut_2_1 |  -.9820764   .2861469    -3.43   0.001    -1.542914   -.4212389
    /cut_2_2 |  -.2788888   .2822521    -0.99   0.323    -.8320928    .2743152
    /cut_2_3 |   .3082293   .2851122     1.08   0.280    -.2505802    .8670389
    /cut_2_4 |   .8628379   .2882249     2.99   0.003     .2979274    1.427748
-------------+----------------------------------------------------------------
      rho_12 |  -.8748456   .1065562                     -.9777382   -.4327823
------------------------------------------------------------------------------

14
johnson90a 发表于 2013-6-22 13:24:03
h3327156 发表于 2013-6-22 13:10
ivprobit 报告结果在主要方程会有z的系数? 除非是您要它报导第一阶段方程,这样才会有z的系数,而此时, ...
谢谢您,我大概知道怎么回事了:用ivprobit命令给出的报表直接就是log文件报表中的上半段,但cmp命令给出的结果和log文件是一样的(有下半段 kids那个表),所以刚才看不懂。。。

老师,怎么看效果好差呢,直接看系数大小之类的就可以了吗?

我最后的问题是关于求边际影响的大小,因为probit模型系数不好直接用来解释什么。。。刚才试了下,应该是可以的

15
h3327156 发表于 2013-6-22 13:50:45
johnson90a 发表于 2013-6-22 13:24
谢谢您,我大概知道怎么回事了:用ivprobit命令给出的报表直接就是log文件报表中的上半段,但cmp命令给出 ...
1. 我觉得比较的话,请以显著与否为主。至于好坏是否有贴近经济理论或现实,那是须由您自己去自圆其说,而且您探讨的论文题目,我可能不懂。

2. 有关边际效果,这个您可能您必须回到predict/predictnl 或 mfx 运算,再要不然您要藉Scott Long的margeff,也许新版的Stata,譬如Stata11与Stata12,margins可以做到,但ivprobit或许可行,可是,cmp您无法这样做,因为cmp的初步形成,Roodman是在2010年,或许更早,我想,当时,他不一定有考虑到提供margins的相关操做。我个人的建议是直接使用mfx 这样就能比较快得到立即性的比较。【一般投稿论文的话,边际效果往往是文字说明,比较少提供报表,因为边际效果的计算很容易有争议,特别是新方法新模型,通常会提供边际效果报表的,肯定模型或计算方法都是简单的】

我想大致上这议题的讨论就到这吧!【我觉得我好像花太多时间在打字 = = 我打字很慢的】
如果您还有问题,请写信到
h3327156@msn.com

我觉得cmp这模型很广泛,他的可爱与套用,还是留给大家进一步去挖掘吧!!!!!!!!!

16
johnson90a 发表于 2013-6-22 14:48:38
h3327156 发表于 2013-6-22 13:50
1. 我觉得比较的话,请以显著与否为主。至于好坏是否有贴近经济理论或现实,那是须由您自己去自圆其说,而 ...
非常感谢您耐心的指点,cmp在stat上的应用我基本上明白了,等交完论文后,我再把您推荐的几篇论文好好研究下

17
johnson90a 发表于 2013-6-22 14:49:02
h3327156 发表于 2013-6-22 13:50
1. 我觉得比较的话,请以显著与否为主。至于好坏是否有贴近经济理论或现实,那是须由您自己去自圆其说,而 ...
非常感谢您耐心的指点,cmp在stat上的应用我基本上明白了,等交完论文后,我再把您推荐的几篇论文好好研究下

18
johnson90a 发表于 2013-6-24 15:48:25
h3327156 发表于 2013-6-22 13:50
1. 我觉得比较的话,请以显著与否为主。至于好坏是否有贴近经济理论或现实,那是须由您自己去自圆其说,而 ...
老师,今天用stata发生了一件很奇怪的事。我的数据是通过整合CHNS来的,有一个细节我以为修改了程序忘了保存,就把整合数据的程序重新跑了一遍,然后回归(相当于把数据重新生成了一遍),竟然发现系数与第一次的不同,然后我拼命检查,没发现有神马问题(不太可能是忘了保存do的原因,因为七千多个样本一个没少,所以肯定不是增减数据库变量带来的问题,而每个变量基本都是离散变量,不太可能去修改它们。。。但怎么着都不能求的第一次的系数),所以又重新跑(合成数据)一遍,然后再跑一次回归,发现系数又有细微差别,这正常吗?

19
h3327156 发表于 2013-6-24 17:04:48
johnson90a 发表于 2013-6-24 15:48
老师,今天用stata发生了一件很奇怪的事。我的数据是通过整合CHNS来的,有一个细节我以为修改了程序忘了 ...
您的问题很好,在这里我必须向您说抱歉,当时考虑有失。

*演练指令程序
cmp setup
webuse laborsup

ivprobit fem_work  fem_educ other_inc (kids = male_educ), first
set more off

set seed 2314578
cmp (fem_work = fem_educ other_inc kids) (kids = fem_educ other male_educ), ind($cmp_probit $cmp_oprobit) tech(dfp) nolr
set more off

set seed 123456789
cmp (fem_work = fem_educ other_inc kids) (kids = fem_educ other male_educ), ind($cmp_probit $cmp_oprobit) tech(dfp) nolr
set more off

您应当可以发现,后面的cmp结果与先前帖子贴出的结果一样,
但前面的set seed 2314578就会有差距

不过,按理,您如果都真的没啥更动,也没啥变化,默认的seed应当都是123456789才对阿!
我也很奇怪您怎会发生这样的情况。

比较保险的方法是,您以后都设同一个seed以保证下次再做就都一样了!

另外,如果说您合成数据或所谓的重新生成了一遍,这中间如果有扯到数据抽样生成,
或者中间跑去估计须要设seed的模型【譬如mvprobit】,自然都会有变化的…
如果一一检查的结果都没有,那我也真的不知道问题在哪了!
除非您愿意给数据和所有的程序供人检验。

不过,您目前能做的就是,请以后cmp前,别忘了    set seed 您喜欢的数字譬如8888

20
johnson90a 发表于 2013-6-24 17:43:30
h3327156 发表于 2013-6-24 17:04
您的问题很好,在这里我必须向您说抱歉,当时考虑有失。

*演练指令程序
老师,不仅仅是cmp,包括普通的线性回归、Probit模型系数都变了。我的数据生成方法其实是很简单的,就是把几个要用的变量筛选出来,或者进行变量的合成,去除缺失值等等,把这个程序重新跑一遍对线性回归的系数也有影响吗? 但是我用这个数据算城乡各自的贫困通用指数结果倒是没有变化的。。。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-22 13:37