(cont'd)
首先考虑,如果OP的设定是正确的,即没有什么重要的解释变量被遗漏了,内生性问题假设也被很好地解决了,那么对迁移者和非迁移者替代弹性e的估计应该是无偏或一致的。那么当我们把其他的不重要的解释变量也放到方程中去,对e的估计应该也差不太多,原因在于,这些多余的变量的引入应该不会造成估计结果出现偏误,而仅仅会降低statistical power。
然而,对比Borjas等人的结论,我们不难发现,两者的结论相差非常多,几乎不可能相等,那么是什么原因造成这样大的差异呢?
我猜想有两种可能性:
其一. Ottaviano and Peri的设定是有误的,他们漏掉了重要的解释变量,因此他们的回归结果实际上有偏、不一致;而Borjas通过引入了一大堆的控制变量,其中可能包括了那些遗漏的变量,因此,后者的结论可能更接近于真。
其二. Borjas等人引入了过多的虚拟变量和交互项。想象一个极端情况,假定我们为N个观测值引入N个虚拟变量,那么这N个观测值可以得到完美的“解释”。其他的解释变量,即使有可能放到方程中去(当然不可能),在控制了这许许多多的虚拟变量之后,也完全丧失了解释能力。
问题是,我们能否判断到底哪一种可能性更大呢,到底是OP遗漏了重要变量,还是Borjas oversaturates了模型?是否有比较一般的判定方法?归根结底,如果两种都有可能,到底应该放多少变量在方程中去?
希望听听大家的看法。


雷达卡

。
京公网安备 11010802022788号







