paulwong 发表于 2020-7-2 15:07 
赵老师好,请教2个问题:(1)面板数据固定效应回归时,在控制个体效应和时间效应的前提下,有研究同时控制 ...
不好意思,漏掉你的问题。
(1)个体效应都控制了,行业效应应该是加不进去的,因为用FE方法时,进行demean的时候,不随时间变化的量都会demean掉,所以你若控制了个体效应,那不可能再控制行业固定效应的,区域效应也是一样。
(2)这是个好问题。我再把你的问题更具体化一些,结构模型为
Y=b0 + b1X1 + b2X2 + b3X1X2 + u
X1内生,X2外生,我们关心X1对Y的因果影响,Z是X1的工具,如何估计该模型?
根据结构模型,我们可以画出大概的因果图,X2是外生变量,它也是混杂因素,同时与X1相关,也同时影响Y,因为结构模型中有交互项,说明X1对Y的影响会随X2的不同而变化,或者说X1对Y的影响具有异质性,随X2的变化而变化,X2是一个调节变量或effect modifier。
这种情况下,我们主要关心X1对Y的影响,X2是分层变量。
所以,第一种最直观的方法,是根据X2进行分层,或着说,我们固定X2的值,假设X2为离散值,则我们可以根据X2分组,比如对于X2=x2的一组个体而言,结构方程现在为
Y = b0 + b1 X1 + b2x2 + b3X1x2 + u
= (b0 + b2x2) + (b1 + b3x2)X1 + u
Z是X1的工具变量,因而,对于X2=x2的一组群体而言,我们可以用IV估计出X1对Y的因果影响。
得到的IV估计系数记为b(x2)=Cov(Y, Z)/Cov(X1, Z),它表示的X2=x2的一组人,X1对Y的影响程度。
如果我们想的不是这一异质性影响,而是想要加总的影响,即根据X2的分布进行加权平均就好了,即
b_IV = \sum_{x2} b(x2)p(X2=x2),x2若为连续则用积分。
这种处理是理解起来比较明确一些的,比较清晰的。但大家一般不这样做,大家其实是按你说的方法来做的。你说的方法也是具有一定的合理性的。
你说的方法是将X1和X1X2看作两个内生变量,将Z和ZX2看作是工具变量,那么,第一阶段有两个方程
X1 = d0 + d1 Z + d2 X2 + d3 ZX2 + v1 (既然结构方程X1、X2有交互影响,那么X2和Z有交互影响也是合理的,当然你也可以假设没有,但实际上你用Stata的iv估计命令,就是相当于上面的简化式模型),另一个是
X1X2 = c0 + c1 Z + c2 X2 + c3 ZX2 + v2
或者简单的写成 X1=\hat{X1}+\hat{v1}, X1X2 = \hat{X1X2}+\hat{v2},下面我滥用一下符合,用x1表示\hat{X1}, v1直接表示回归残差\hat{v1},x1x2表示\hat{X1X2},v2直接也表示回归残差。
代入结构式,则有
Y = b0 + b1(x1+v1) + b2X2 + b3(x1x2 +v2) + u
= b0 + b1x1 + b2X2 + b3x1x2 + (b1v1 + b3v2 + u)
根据线性回归性质(5.9)(参见MUSE第5章), v1, v2与X2, Z, ZX2正交, 而x1, x1x2均可看作是X2, Z, ZX2的线性组合,它们是外生变量,从而独立于u,因而,现在上式中复合的误差项是与前面的解释变量正交的,因而OLS估计可以得到一致的估计。这样,你想要的结构系数b1, b2, b3都可以一致的估计出来,得到的X1对Y的因果影响就是b1+b3X2。
当然,在上面的估计中,第一阶段的第二个式子中,其实经济含义不好解释,事实上,在IV估计中,第一阶段并不要求有经济内涵,它反映的主要是相关性(有时是有经济解释的),因而没有经济含义一点关系都没有,IV关系的实际上就是第二阶段给出因果效应的解释。这也是为什么近年来有人利用机器学习的方法估计IV的第一阶段的原因,因为第一阶段实际上是一个预测问题,不涉及因果推断问题,预测的越好,越有利于第二阶段的因果效应估计。
希望上述解释能够回答你的问题。