首先展示 do 命令的使用:
接下来进行逐步分析:
数据结构特征分析
根据图像信息可得:
- 个体(?state?):共48个,编号从1至48
- 时间(?year?):涵盖1970年至1986年,共计17期,时间间隔为1年
- 个体-时间组合(?state*year?):每个观测值具有唯一标识,无重复或缺失
上述特征表明该数据集为一个完全平衡的面板数据。
补充知识:关于短面板与长面板的划分标准——当个体数 n 远大于时间长度 t 时称为短面板;若时间长度 t 显著大于 n 或两者接近,则为长面板。简而言之,比较 n 和 t 的大小即可判断:n 大为短面板,t 大则为长面板。
变量趋势观察
由图示结果可知,在观察期内,大多数州的 Log(y) 呈现出稳定的增长趋势,整体变化方向一致。尽管各州的增长幅度存在差异,但并未出现明显的趋势性下降或剧烈波动现象。
聚类稳健标准误的应用说明
命令基本格式如下:reg y x1 x2 x3 , vce(cluster id)
其中,“vce(cluster id)”表示以 ‘province’ 作为聚类变量来计算聚类稳健标准误。这是因为在面板数据中,同一省份内的多个观测值可能存在相关性,直接使用普通标准误会低估真实变异,导致推断偏差。通过将“省份”设为聚类单位,可以有效修正此类组内相关带来的误差,从而获得更为可靠的标准误估计。
简言之,这一设定旨在提升混合回归结果的准确性,利用个体层面的群集效应调整标准误。
回归结果解读
从图中可以看出:
- R(拟合优度)超过99%,模型解释力极强
- lnk2 和 lnlabor 在1%水平上显著
- lnk1 和 unemp 在5%水平上显著
- lnk1 系数为正且统计显著,其经济含义为:该资本变量每上升1%,产出平均增加约0.156%,符合资本促进经济增长的基本规律
模型对比与选择:混合回归 vs 随机效应
结合上图回答问题2:虽然 lnk1 的系数符号仍为正,但其显著性在不同模型中发生变化——在混合回归中显著,而在随机效应模型中不再显著。
冷知识提示:LM检验用于在混合回归与随机效应模型之间做出选择。若检验拒绝原假设,则说明存在个体效应,应排除混合回归。
p 值为 0.0000,强烈拒绝“不存在个体随机效应”的原假设,因此应在随机效应与混合回归之间优先选择随机效应模型。
进一步查看结果发现:lnk1 依旧不显著,同时 LR 检验最后一行显示 p 值为 0,强烈拒绝原假设 “H0:sigma_u=0”,即认为存在不可忽略的个体随机效应,不应采用混合回归方法。
固定效应模型估计结果
在组内估计量的固定效应模型中,lnk1 不仅失去显著性,其系数甚至转为负值。
通过对单向固定效应模型实施LSDV估计,在10%显著性水平下,仅有3个州对应的虚拟变量不显著。为了判断个体效应是否适合建模为随机项,需执行豪斯曼检验。
冷知识补充:豪斯曼检验用于在固定效应与随机效应模型之间进行抉择。
根据图表结果,Prob>chi2 = 0.0858。该 p 值虽略高于常用阈值 0.05,但在放宽至 0.1 显著性水平时可拒绝原假设 H0。依据豪斯曼检验逻辑——拒绝 H0 意味着固定效应更优——因此可得出结论:固定效应模型优于随机效应模型。
需要注意的是,传统豪斯曼检验要求同方差前提成立,故在 FE 与 RE 回归中均不能使用聚类稳健标准误。为此,我们需先对异方差情况进行检验,这里采用 White 检验实现。
p 值为 0,强烈拒绝同方差原假设,表明数据中存在显著异方差。因此,必须采用稳健形式的豪斯曼检验来进行后续判断。
使用 xtoverid 进行扩展检验
xtoverid 是对 Hausman 检验的有效补充,用于检验随机效应模型的核心假设:“个体效应与解释变量不相关”(即随机效应的一致性假设)。其原假设 H0 为该假设成立(支持随机效应),备择假设 H1 为不成立(支持固定效应)。
结果显示:
- 结果1(含 ?robust cluster(state)?):Sargan-Hansen 统计量 = 19.333,P-value = 0.0007(远小于0.05),拒绝 H0
- 结果2(无稳健标准误):Sargan-Hansen 统计量 = 9.718,P-value = 0.0455(小于0.05),同样拒绝 H0
两项结果均表明:应选择固定效应模型而非随机效应模型。
时间趋势分析
由上图可见,时间趋势项 t 的系数显著为正,说明被解释变量 lny 存在随时间推移而增强的组内上升趋势。
双向固定效应模型结果
在引入双向固定效应后:
- lnk1(负)、lnk2(正)、lnlabor(负)均达到显著水平
- unemp 则未通过显著性检验
加入时间虚拟变量后,模型拟合效果极为理想,说明个体异质性与时间异质性共同构成了影响 lny 的关键因素。
采用 LSDV 方法加入时间虚拟变量时,默认允许每一期的时间效应独立变化。由于不存在某个解释变量在同一年份下所有州取值完全相同的情况,因此无需在回归前剔除任何变量。
回归输出显示,在10%显著性水平下,17个年份中有5年的效应不显著,其余12年显著。
一阶差分估计结果
在 Coefficient 一列中,代表的是一阶差分估计量。此时 lnk1 的系数变为正值,并在5%显著性水平下通过检验,表现出统计显著性。
上述图表展示了组间估计量的回归分析结果,然而该结果并不可靠。由于组间估计量属于随机效应模型的一种估算方法,而前文已证实随机效应在此情境下表现不佳,因此从理论角度出发,该方法的应用存在缺陷。



雷达卡


京公网安备 11010802022788号







