在使用工具变量(Instrumental Variable, IV)方法时,聚类标准误(Clustered Standard Errors)的决定与数据结构、研究设计以及模型假设紧密相关。你提到的结果在引入城市层面的聚类后变差可能有多个原因,并非直接指向异方差性问题。
1. **数据的层次性**:如果观测值之间存在明显的群组效应(比如,来自同一城市的观察值相互关联),不使用聚类标准误可能会低估标准误,导致推断的偏差。这种情况下,模型结果在引入聚类后变弱可能是因为原本未充分考虑观测值之间的相关性。
2. **异方差性**:虽然异方差性可以影响回归结果的有效性,但它的存在并不直接决定是否需要使用聚类标准误。异方差主要是指模型残差的方差随解释变量变化而变化的现象。当数据点在群组内部具有相关性时(如同一城市的数据),即使不存在异方差,聚类也能更准确地估计标准误。
3. **样本大小与结构**:如果集群内的观测值数量较少或集群本身数量不多,使用聚类可能会增加模型的不确定性,导致显著性的减弱。这是因为在小样本情况下,聚类标准误可能过保守。
4. **研究目标**:有些研究者基于数据特性、理论假设和实证结果的考虑,选择不报告聚类检验的结果。例如,在《ESG表现对中国企业海外收益影响的机制与效应研究》这样的文章中,作者可能会根据研究问题的具体性质和数据特点来决定是否使用聚类标准误。
总结来说,是否采用聚类取决于多个因素:
- 数据层次结构(如是否存在群组效应)。
- 研究设计需求(如是否需要处理观测值间的相关性以得到更准确的推断)。
- 样本大小和结构对结果的影响程度。
- 以及研究者的具体目标与假设。
在决定是否使用聚类时,理解你的数据特性和模型要求至关重要。如果城市层面的数据存在明显的群组效应,并且这一层级上的观测值相关性显著影响到标准误的估计,那么采用城市层面的聚类是有必要的。此外,探索不同规格化(如非聚类、城市级别聚类)的结果差异可以帮助更全面地理解数据结构和模型效果。
至于你提供的Stata代码示例:
```stata
ivreghdfe tfp ( talent=m26) $contral, absorb(id year)
```
这段代码使用`ivreghdfe`命令执行固定效应IV回归,其中`tfp`是被解释变量,`talent`通过工具变量`m26`进行估计,控制了一系列其他因素(由`$contral`表示),并吸收了个体和时间的固定效应。但是,该代码未直接指定聚类标准误,这意味着默认使用非聚类的标准误。如果要添加城市层面的聚类,可以在命令中加入`, vce(cluster city)`选项(假设“city”是数据中的城市变量)。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用