Stata学习:内生性处理新命令eregress
内生性问题几乎是研究过程中不可避免的,然而,这一问题的解决历来是一大难题。致力于服务经验研究者的Stata公司也关注到了这方面的强大的需求,并在Stata15中增加了一个专门处理内生性问题的命令模块——Extended regression models (ERMs),包括eregress,eintreg, eprobit 以及eoprobit等命令。我们将通过一个推文系列对这一模块中涉及的命令逐个进行介绍。
一、语法介绍
在Stata15中输入helperegress命令可知,eregress主要用于处理线性回归中导致内生性的以下三种情况:内生协通过变量,非随机对照试验,以及内生样本选择问题。今天我们主要关注如何使用eregress命令处理线性模型中存在内生协变量的问题,即使用eregress命令进行工具变量回归。
eregress的基本语法如下:
eregress depvar [indepvars],endogenous(depvars_en = varlist_en) [options]
其中,depvar为被解释变量;indepvars为外生控制变量;depvars_en为内生协变量;varlist_en则包括工具变量和影响内生变量的其它控制变量。遵行工具变量法的计量原理,eregress命令会根据用户输入的变量,构建主回归方程(main)和辅助(auxiliary)回归方程,并使用最大似然法对模型进行估计。
二、案例介绍
【小案例】:某项目欲探究学生的高中平均成绩(hsgpa)对大学平均成绩(gpa)的影响(为了使研究更加简化,忽略退学等因素的影响)。因此,这里的被解释变量就是大学平均成绩(gpa),解释变量就是高中平均成绩(hsgpa)。考虑到家庭因素,如家庭收入(income),也可能会对学生的成绩产生影响,也需要对其进行控制。
这里首先构造基本的OLS回归,程序如下:
clear
webuse class10
reg gpa hsgpa income
回归结果显示,hsgpa的系数为1.61,且在1%的水平上显著,表明高中平均成绩会对大学成绩产生显著影响。
然而,此处的OLS回归存在严重的内生性问题——遗漏变量。因为存在一些不可观测因素既会影响高中平均成绩(hsgpa)也会影响大学平均成绩(gpa)。比如高中成绩好的学生可能本身智商(IQ)就很高,其大学成绩好很可能是由智商导致的,而非高中平均成绩。
研究人员通过分析认为一所高中的竞争力会影响学生的成绩,而一旦高中平均成绩(hsgpa)得到控制,高中的竞争力对大学平均成绩(gpa)的影响就可以忽略。因此他们选择高中的排名(hscomp)作为高中GPA的工具变量(IV)。这一IV的选择符合工具变量的筛选标准,首先高中的排名是学生所不能控制的,是独立于学生系统的外生因素,因此排除了其他因素的影响,满足外生性要求。第二是因为高中竞争力和高中生的平均成绩是(hsgpa)高度相关的,一般情况下,排名靠前的高中,学生的成绩也更好。实际操作中,把高中竞争力(hscomp)分为低水平高中(low)、普通高中(moderate)和高水平高中(high)。下面运用eregress命令,进行拓展的线性回归:
eregress gpa income, endogenous(hsgpa = income i.hscomp)
回归结果表格的上部分,报告了主回归方程的估计结果,被解释变量为gpa;回归结果表格的下部分报告了辅助回归方程的估计结果,被解释变量为hsgpa。在辅助回归方程中,我们通过引入外生变量hscomp作为hsgpa的工具变量,同时控制income,来控制内生性带来的影响。主回归方程的估计类似于regress命令,根据回归结果发现高中gpa的不同会导致大学gpa存在1.24的差异。
需要注意的是,虽然eregress回归中,hsgpa的系数相较于OLS回归有所降低,但是其标准误却上升了。如果选择的IV外生性比较差,或者与内生变量之间的相关性较低(弱工具变量),eregress估计的误差也会更大。
三、eregress vs ivreg2
部分童鞋可能会好奇这里的eregress和ivreg2有什么区别呢?这里我们做一个简单的对比。首先,对比eregress,我们生成两个虚拟变量作为hsgpa的工具变量:
tab hscomp, gen(hscomp)
然后使用ivreg2进行估计:
ivreg2 gpa income (hsgpa = hscomp2 hscomp3), liml savefirst
考虑到eregress命令使用的估计方法为最大似然估计,在使用ivreg2时我们也通过加入liml选项将估计方法设置为最大似然估计。一些文献研究发现:(1) 在大样本的情况下,liml估计量和两阶段最小二乘是渐进等价的,而在非大样本的情况下,liml估计量比两阶段最小二乘法具有更好的小样本估计性质,因为在有限样本之中两者对工具变量赋予的权重不同;(2)在工具变量并不十分有效的情况下,尤其是在有限样本中,相对于两阶段最小二乘和广义矩估计,liml的偏误较小。估计结果如下图:
通过对比可以发现,使用ivreg2命令和eregress命令得到的估计结果是相同的。因此,eregress命令包的主要亮点可能在于将处理内生性问题的命令进行了整合,使得code写起来更加简洁。
本文旨在介绍eregress命令的相关用法,对于所选工具变量的有效性并未进行评估;关于计量上的表述错误或者技术上的错误,还请读者不吝指出。