楼主: ugs427323
971 7

[回归分析求助] 工具变量纳不纳入cluster的问题 [推广有奖]

  • 1关注
  • 0粉丝

讲师

18%

还不是VIP/贵宾

-

威望
0
论坛币
43324 个
通用积分
178.0381
学术水平
5 点
热心指数
5 点
信用等级
5 点
经验
5488 点
帖子
166
精华
0
在线时间
515 小时
注册时间
2020-4-8
最后登录
2024-11-9

500论坛币
最近我在尝试性处理模型的内生性问题,但了解不多。回归的过程中出现了一定的问题,当我不考虑使用聚类(cluster)的时候,结果应该是可以的,但当我考虑到cluster,并且将其聚类到城市层面,结果直接就不好,这个情况是说明我的数据存在异方差问题吗?我也看到了已发布的文章报告的是没有用到聚类的检验,这是为什么?用不用的标准是什么?举例文献:《ESG表现对中国企业海外收益影响的机制与效应研究
我的代码: ivreghdfe  tfp  ( talent=m26)   $contral, absorb(id  year)
(MWFE estimator converged in 3 iterations)

IV (2SLS) estimation
--------------------

Estimates efficient for homoskedasticity only
Statistics consistent for homoskedasticity only

                                                      Number of obs =     3718
                                                      F(  8,  3448) =     3.47
                                                      Prob > F      =   0.0005
Total (centered) SS     =    1.5786314                Centered R2   =  -0.0503
Total (uncentered) SS   =    1.5786314                Uncentered R2 =  -0.0503
Residual SS             =  1.658036126                Root MSE      =   .02193

-----------------------------------------------------------------------------------
              tfp | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
------------------+----------------------------------------------------------------
           talent |    5.92304   2.830098     2.09   0.036     .3742007    11.47188
              fdi |  -.0007324   .0003719    -1.97   0.049    -.0014615   -3.30e-06
       houseprice |   -.001511   .0024623    -0.61   0.539    -.0063386    .0033167
populationdensity |   .0044783   .0073569     0.61   0.543     -.009946    .0189027
             road |   .0001716   .0001104     1.55   0.120    -.0000449    .0003881
            Urben |   .0048555   .0033075     1.47   0.142    -.0016295    .0113404
        lndocotor |  -.0048742   .0022473    -2.17   0.030    -.0092805    -.000468
        lnteacher |   .0088382   .0034454     2.57   0.010     .0020829    .0155934
-----------------------------------------------------------------------------------
Underidentification test (Anderson canon. corr. LM statistic):          93.473
                                                   Chi-sq(1) P-val =    0.0000
------------------------------------------------------------------------------
Weak identification test (Cragg-Donald Wald F statistic):               88.921
Stock-Yogo weak ID test critical values: 10% maximal IV size             16.38
                                         15% maximal IV size              8.96
                                         20% maximal IV size              6.66
                                         25% maximal IV size              5.53
Source: Stock-Yogo (2005).  Reproduced by permission.
------------------------------------------------------------------------------
Sargan statistic (overidentification test of all instruments):           0.000
                                                 (equation exactly identified)
------------------------------------------------------------------------------
Instrumented:         talent
Included instruments: fdi houseprice populationdensity road Urben lndocotor
                      lnteacher
Excluded instruments: m26
Partialled-out:       _cons
                      nb: total SS, model F and R2s are after partialling-out;
                          any small-sample adjustments include partialled-out
                          variables in regressor count K
------------------------------------------------------------------------------
如果加入聚类的话,代码: ivreghdfe  tfp  ( talent=m26)   $contral, absorb(id  year) cluster(id)
(MWFE estimator converged in 3 iterations)

IV (2SLS) estimation
--------------------

Estimates efficient for homoskedasticity only
Statistics robust to heteroskedasticity and clustering on id

Number of clusters (id) =          248                Number of obs =     3718
                                                      F(  8,   247) =     2.13
                                                      Prob > F      =   0.0335
Total (centered) SS     =    1.5786314                Centered R2   =  -0.0503
Total (uncentered) SS   =    1.5786314                Uncentered R2 =  -0.0503
Residual SS             =  1.658036126                Root MSE      =   .02118

-----------------------------------------------------------------------------------
                  |               Robust
              tfp | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
------------------+----------------------------------------------------------------
           talent |    5.92304   3.560149     1.66   0.097    -1.089081    12.93516
              fdi |  -.0007324   .0005083    -1.44   0.151    -.0017335    .0002687
       houseprice |   -.001511   .0030861    -0.49   0.625    -.0075894    .0045675
populationdensity |   .0044783    .010591     0.42   0.673    -.0163818    .0253385
             road |   .0001716   .0001505     1.14   0.255    -.0001248     .000468
            Urben |   .0048555   .0038254     1.27   0.206    -.0026792    .0123901
        lndocotor |  -.0048742   .0031162    -1.56   0.119     -.011012    .0012635
        lnteacher |   .0088382   .0057024     1.55   0.122    -.0023933    .0200697
-----------------------------------------------------------------------------------
Underidentification test (Kleibergen-Paap rk LM statistic):              6.541
                                                   Chi-sq(1) P-val =    0.0105
------------------------------------------------------------------------------
Weak identification test (Cragg-Donald Wald F statistic):               95.317
                         (Kleibergen-Paap rk Wald F statistic):          5.878
Stock-Yogo weak ID test critical values: 10% maximal IV size             16.38
                                         15% maximal IV size              8.96
                                         20% maximal IV size              6.66
                                         25% maximal IV size              5.53
Source: Stock-Yogo (2005).  Reproduced by permission.
NB: Critical values are for Cragg-Donald F statistic and i.i.d. errors.
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments):         0.000
                                                 (equation exactly identified)
------------------------------------------------------------------------------
Instrumented:         talent
Included instruments: fdi houseprice populationdensity road Urben lndocotor
                      lnteacher
Excluded instruments: m26
Partialled-out:       _cons
                      nb: total SS, model F and R2s are after partialling-out;
                          any small-sample adjustments include partialled-out
                          variables in regressor count K
------------------------------------------------------------------------------

Absorbed degrees of freedom:
-----------------------------------------------------+
Absorbed FE | Categories  - Redundant  = Num. Coefs |
-------------+---------------------------------------|
          id |       248         248           0    *|
        year |        15           1          14     |
-----------------------------------------------------+
* = FE nested within cluster; treated as redundant for DoF computation


最佳答案

0641868857 查看完整内容

聚类不聚类取决于什么样的假设。聚类标准误是假设组内存在序列相关性,组间没有。比如,聚类至企业假设企业内不同年份之间的obs存在序列相关性,如果聚类至企业不显著,则可能说明已有结果的显著性部分来自于序列相关性,在调整了后自然显著性就下降了。用什么标准误取决于你的研究目的,研究假设在特定情境中的合理性,以及在已有文献中的通用做法。当然,前后的标准误一般都需要统一,前后一致。
关键词:Cluster 工具变量 CLU Instruments coefficient
沙发
0641868857 学生认证  发表于 2024-5-29 18:47:22 |只看作者 |坛友微信交流群
ugs427323 发表于 2024-6-5 00:32
谢谢您的回答,我也是和另一位发言人一样的困惑,之前都用了聚类到个体,到这里不用,很奇怪。而且不太能 ...
聚类不聚类取决于什么样的假设。聚类标准误是假设组内存在序列相关性,组间没有。比如,聚类至企业假设企业内不同年份之间的obs存在序列相关性,如果聚类至企业不显著,则可能说明已有结果的显著性部分来自于序列相关性,在调整了后自然显著性就下降了。用什么标准误取决于你的研究目的,研究假设在特定情境中的合理性,以及在已有文献中的通用做法。当然,前后的标准误一般都需要统一,前后一致。

使用道具

藤椅
ugs427323 学生认证  发表于 2024-5-29 18:48:30 |只看作者 |坛友微信交流群
烦请各位大佬看看,实在是困惑的不行。我可以不用聚类,直接使用第一个命令做出来的结果吗?

使用道具

板凳
guoyongtao666 发表于 2024-6-3 13:38:15 |只看作者 |坛友微信交流群
可以。聚类目的在于获得更好的标准误,稳健标准误比聚类标准误好,可以不用聚类。

使用道具

报纸
qawsed2 发表于 2024-6-4 09:43:06 来自手机 |只看作者 |坛友微信交流群
我也有这个问题,当我使用vce(robust)时结果都很好,弱工具变量和识别不足检验都可以通过,但当我使用vce(cluster City)时结果就不好了,尤其是Wald F statistic的值会大幅度缩水,所以我在想是出现了什么问题呢,在做工具变量时是否可以不进行cluster,而只是vce(robust)呢,但前面的回归都是聚类到城市层面的,还请大佬进行解答

使用道具

地板
qawsed2 发表于 2024-6-4 10:08:14 来自手机 |只看作者 |坛友微信交流群
ugs427323 发表于 2024-5-29 18:48
烦请各位大佬看看,实在是困惑的不行。我可以不用聚类,直接使用第一个命令做出来的结果吗?
但是如果前面的回归都用了cluster,到工具变量的时候不用cluster是否会显得突兀呢,求解答

使用道具

7
ugs427323 学生认证  发表于 2024-6-5 00:32:17 |只看作者 |坛友微信交流群
guoyongtao666 发表于 2024-6-3 13:38
可以。聚类目的在于获得更好的标准误,稳健标准误比聚类标准误好,可以不用聚类。
谢谢您的回答,我也是和另一位发言人一样的困惑,之前都用了聚类到个体,到这里不用,很奇怪。而且不太能明白为什么结果差异会这么大,是因为我的样本数据存在异方差导致的结果偏误吗?

使用道具

8
赵安豆 发表于 2024-9-14 14:25:28 |只看作者 |坛友微信交流群
在使用工具变量(Instrumental Variable, IV)方法时,聚类标准误(Clustered Standard Errors)的决定与数据结构、研究设计以及模型假设紧密相关。你提到的结果在引入城市层面的聚类后变差可能有多个原因,并非直接指向异方差性问题。

1. **数据的层次性**:如果观测值之间存在明显的群组效应(比如,来自同一城市的观察值相互关联),不使用聚类标准误可能会低估标准误,导致推断的偏差。这种情况下,模型结果在引入聚类后变弱可能是因为原本未充分考虑观测值之间的相关性。

2. **异方差性**:虽然异方差性可以影响回归结果的有效性,但它的存在并不直接决定是否需要使用聚类标准误。异方差主要是指模型残差的方差随解释变量变化而变化的现象。当数据点在群组内部具有相关性时(如同一城市的数据),即使不存在异方差,聚类也能更准确地估计标准误。

3. **样本大小与结构**:如果集群内的观测值数量较少或集群本身数量不多,使用聚类可能会增加模型的不确定性,导致显著性的减弱。这是因为在小样本情况下,聚类标准误可能过保守。

4. **研究目标**:有些研究者基于数据特性、理论假设和实证结果的考虑,选择不报告聚类检验的结果。例如,在《ESG表现对中国企业海外收益影响的机制与效应研究》这样的文章中,作者可能会根据研究问题的具体性质和数据特点来决定是否使用聚类标准误。

总结来说,是否采用聚类取决于多个因素:
- 数据层次结构(如是否存在群组效应)。
- 研究设计需求(如是否需要处理观测值间的相关性以得到更准确的推断)。
- 样本大小和结构对结果的影响程度。
- 以及研究者的具体目标与假设。

在决定是否使用聚类时,理解你的数据特性和模型要求至关重要。如果城市层面的数据存在明显的群组效应,并且这一层级上的观测值相关性显著影响到标准误的估计,那么采用城市层面的聚类是有必要的。此外,探索不同规格化(如非聚类、城市级别聚类)的结果差异可以帮助更全面地理解数据结构和模型效果。

至于你提供的Stata代码示例:
```stata
ivreghdfe tfp ( talent=m26)  $contral, absorb(id year)
```
这段代码使用`ivreghdfe`命令执行固定效应IV回归,其中`tfp`是被解释变量,`talent`通过工具变量`m26`进行估计,控制了一系列其他因素(由`$contral`表示),并吸收了个体和时间的固定效应。但是,该代码未直接指定聚类标准误,这意味着默认使用非聚类的标准误。如果要添加城市层面的聚类,可以在命令中加入`, vce(cluster city)`选项(假设“city”是数据中的城市变量)。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-10 05:53