断点回归 Regression Discontinuity(RD)
断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
例 Thistlewaite and Campbell(1960)使用断点回归研究奖学金对于未来学业成就的影响。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。
例 Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。
断点回归可以分为两种类型:
精确断点回归(Sharp Regression Discontinuity,SRD),其特征是断点x=c处,个体得到处理的概率从0跳跃到1。
模糊断点回归(Fuzzy Regression Discontinuity,FRD),其特征是断点x=c处,个体得到处理的概率从a跳跃到b,其中0<a<b<1。
1.精确断点回归
考察上大学对工资收入的影响。假设上大学与否(Di)完全取决于由高考成绩xi是否超过500分:
由于此回归存在一个断点,故称为“断点回归”(Regression Discontinuity)或称“断点回归设计”(Regression Discontinuity Design)。由于在断点附近仿佛存在随机分组,故一般认为断点回归是内部有效性比较强的一种准实验。断点回归可以视为“局部随机试验”(Local randomized experiment);可通过考察协变量在断点两侧的分布是否有差异来检验随机性。但断点回归仅推断在断点处的因果关系,并不能推广到其他样本值,故外部有效性受局限。
2.模糊断点回归
3.断点回归Stata操作
陈强老师的教材给了一些例子和下载的线索,对其进行整理和扩展,把其没有重现的McCrary的例子加以展示。
断点回归可通过非官方Stata命令rd来实现,基本句式:
rd D x , z0(real) strineq mbw(numlist) graph bdep oxline /// kernel(rectangle)cov(varlist) x(varlist)
其中,“y”为结果变量,“D”为处理变量,而“x”为分组变量。选择项“z0(real)”用来指定断点位置,默认值为“z0(0)”,即断点为原点。选择项“mbw(numlist)”用来指定带宽,默认值为“mbw(50 100 200)”,选择项“graph”表示根据所选的每一 带宽,画出其局部现行回归图。
选择项“bdep”表示通过画图来考察断点回归估计量对带宽 的依赖性。
选择项“oxline”表示在此图的默认带宽上画一条直线,以便识别。
选择项“Kernel(rectangle)”表示使用矩形核,默认使用三角核。
选择项“cov(varlist)”用来指定加入局部线性回归的协变量。
选择项“x(varlist)”表示检验这些协变量是否在断点处有跳跃(估计其跳跃值和显著性)
例1:考察美国国会选区如果有一名民主党众议员对该选区联邦指出的影响。 传统上,民主党倾向于大政府,故一个选区如果有民主党众议员,则该议员可能为该选区争取更多的联邦支出。然而,直接对二者进行回归可能存在遗漏变量问题或双向因果问题。为此,使用民主党候选人的得票率作为分组变量,以0.5作为断点(在两党政治中,得票率大于或等于0.5则当选,反之落选),进行断点回归。 数据集votex.dta,其中结果变量为lne(选区联邦开支的对数)、分组变量为d(民主党候选人得票率减去0.5)、处理变量win(民主党候选人当选),以及一系列协变量。
先来做一个一般的lne对 win的OLS回归,可以与断点回归作比较。
Stata命令:reg lne win i votpop black blucllr famer fedwrkr forborn /// manuf unemplyd union urban verterans
可以看出,虚拟变量win 的系数是正的0.39,却不显著,而且调整后的R2是0.2814,只能解释总体样本的28.14%。
进行断点回归后,还需要对其设定进行检验。先检验协变量在断点处的条件密度是否存在跳跃。
Stata命令:rd lne d , mbw(100) x(i votpop black blucllr farmer fedwrkr /// forborn manuf unemplyd union urban veterans)
McCrary检验可以通过非官方Stata命令Dcdensity来实现,ado文件下载地址为http://emlab.berkeley.edu/~jmccrary/DCdensity/。将“Dcdensity.ado”文件下载到文件夹“\\ado\\plus”即可。
命令Dcdensity基本句式为Dcdensity assign_var,breakpoint(#) generate(Xj Yj r0 fhat se_fhat) graphname(filename)
其中“assign_var”为分组变量,必选项“breakpoint(#)”指定断点位置,必选项“generate(Xj Yj r0 fhat se_fhat)”用来指定输出变量名,而选择项“graphname(filename)”用来指定密度函数图的文件名。
例2:
数据集:LMB Data.dta
分组变量:民主党的得票率(demvoteshare)。当得票率大于50%时,则民主党获胜。
结果变量:来自ADA的自由投票得分。
考察在得票率相近的选举中获胜的候选人是否较少了他们的国会得票。
画散点图:
scatter score demvoteshare, msize(small) xline(0.5)
xtitle("Democrat vote share") ytitle("ADA score")
scatter score demvoteshare, msize(small) xline(0.5) xtitle("Democrat vote share")
ytitle("ADA score") jitter(2)
在断点两端添加拟合曲线:
论文:Evidence on the impact of sustained exposure to air pollution on life expectancy from China’s HuaiRiver policy
这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。发表在《美国国家科学院院刊》(PNAS)的一篇论文,向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实:以淮河为界,烧煤供暖的中国北方地区空气污染水平高于中国南方,北方5亿居民因严重的空气污染,平均每人失去5年寿命。使用的方法就是断点回归(RD)


雷达卡





京公网安备 11010802022788号







