最近看到都阳老师“高校扩招对中国农村地区高中入学决策的影响”(《劳动经济研究》,2014,2)。讨论了1999年的高校扩招对是否选择高中的影响。作者使用了2000年普查和2005年小普查数据,利用混合截面数据和DID方法,估计了扩招效应。作者在2000年样本和2005年样本当中,以同样的年龄段在两次样本中选择处理组和对照组。也即,均以两次调查时19-21岁人群作为处理组,两次调查时25-27岁人群作为对照组。具体而言,在2000年样本中,处理组是19-21岁(1979-1981年出生,高中决策时间为1994-1996年,不受扩招影响),对照组是25-27岁(1973-1975年出生,高中决策时间为1988-1990年,不受影响)。在2005年样本中,处理组是19-21岁(1984-1986出生,高中决策时间为1999-2001,受影响),对照组是25-27岁(1978-1980出生,高中决策时间为1993-1995,不受影响)。
我对作者以同样的年龄段在两次样本中选择处理组和对照组的做法有些疑问。我觉得应该以同样的出生年份来选择。理由如下:
假如我只有05年样本,以19-21岁人群(1984-1986年出生)作为处理组,25-27岁(1978-1980年出生)作为对照组,简单的用一个表示个体是否生于1983年之后的虚拟变量来回归,肯定存在遗漏偏误。比如说,可能1984-1986年出生的这批人相对于1978-1980出生的人,拥有更强的教育动机——这是一种与出生队列有关的队列效应(cohort effect)。或者说,1984-1986年出生的这批人在面临是否上高中决策的时候(作者假设15岁上高中,因此就是1999-2001年),社会背景不同于1978-1980年出生的那批人做决策时所面临的环境——这是一种和出生年份有关的时期效应。为了解决这些遗漏偏误,如果我还拥有2000年样本的话,那我应该在2000年样本中也选择1984-1986年出生的人群作为处理组,选择1978-1980年出生的作为控制组。因此,只有在两次调查样本中选择同样的出生队列人群作为组别划分依据时,才能差分掉不可观测的、但是与出生年份有关的队列效应和时期效应。
我觉得都阳老师的方法应该不会有错,但是又想不通自己的思路哪里有问题。想请教各位。谢谢。