考虑以下panel data模型
Y(it)=a+b*X(it)+U(i)+e(it)
Y(it) 是被解释变量,X(it)是解释变量,U(i)是个体因素(individual effects), e(it) 是误差项。
Random Effect 和 fixed effect 的区别就在于关于U(i)的假设。
要理解这一点,首先要知道为什么要引入这个individual effect U(i).
考虑以下简单的模型:假如 Y(it) 是样本中第i个人在时间t的工资,而X(it)是样本中第i个人在时间t的教育水平(以受教育年为单位,如果小学就是6,中学就是9,高中就是12,大学就是16)。影响个人工资的除了教育水平以外最重要的因素是什么呢?个人能力(对,我知道是"关系",但我们假设是个人能力。)这里的U(i)就是个人的能力 --- 虽然不能被观测到,但显然对个人工资有影响。而且 U(i) 对于每个人来说是不随时间改变而改变的---比如智商。
Random Effect 假设这个U(i)和 X(it) 是不关联的(uncorrelated),或者说,假设个人的教育水平是跟个人智商和能力是无关的,那么我们可以把U(i)当作误差项的一部分直接用OLS就可以估计以上模型了。
但是我们知道个人能力显然是跟教育水平有关系的---一般来说,个人能力越强,那么受教育的水平越高。如果random effect 的假设站不住脚,那么用OLS来估计这个模型就是不合理的。
而 Fixed Effect的假设是允许U(i)和 X(it)有关联的,这是一个显然更合理的假设,因此现在实证中使用的大都是fixed effect, 做random effect的话别人一般会质疑你的假设跟结论的。
总之,用 fixed effect 是更保险的方法。