谈谈因果识别与断点回归设计(RDD)
来源于微信公众号:小花经济学术
引言
传统上的社会科学习惯于进行描述性分析或个体案例分析,这些工作无疑是相当重要和基础的,但是最吸引人的还是因果推断,确立变量之间的因果关系和测量因果效应更让人热血沸腾。
一、断点回归
断点回归 (Regression Discontinuity Design) 可以追溯到 Thistlewait and Campbell (1960) 的文章,RDD 被认为是仅次于随机试验的好东西。
二、基于反事实理论的因果识别
反事实理论就是和我们能够观测到的现实情况相反的一种状态(Rubin 1980)。在于反事实框架下进行因果推断的原理是这样的:
变量 X 对变量 Y 变化的因果效应可以表达为,当 X 成立时 Y 的结果与 X 不成立时 Y 的反事实结果之间的差异,如果这种差异存在且在统计上显著,则称变量 X 对变量 Y 是有因果效应的,否则二者之间就不存在因果关系。
在日常生活中,当自己生病了,然后去看了医生,结果病很快就好了,我们心里会这样来构造反事实,假如我没有去看医生的话,也许还没好呢,那么看医生的因果效应就被假设推测出来了,这是反事实理论的生活起源。
(一) 观察性研究
在一般的观察数据中,我们要进行政策效果评估和因果推断时,最大的问题就是选择性偏误(Selection Bias )。更具体地说,我们定义一个treatment 二元变量,D = {0,1} 。
Y 表示我们关心的结果变量。对于每一个个体而言,有两种潜在结果变量:
其中,Y0i 表示个体 i 没有接受 treatment 的结果变量,Y1i 表示个体 i 接受了treatment 的结果变量。那么,这个treatment 的因果效应(causal effect)就可以通过简单差分得到:
但是,在现实中,我们是不可能同时在同一个个体 i 上观测到两个潜在结果值的。一件事发生了,就无法知道他不发生时的 “反事实情况”,这被称为“反事实的不可观测性”,是因果推论中的基本问题(Holland 1986) 。我们能观测到的是一组接受了 treatment 的 i 和一组没有接受 treatment 的 i。
在观测数据中,我们容易估计出来的是Observed difference in average outcome,而这个估计量由两部分组成:ATET + Selection Bias。
我们感兴趣的是ATET(平均处理效应)。那么我们的目标就是使得Selection Bias 最小甚至为0,这样我们就不得不通过特殊手段精心挑选出一个 control group 来跟 treatment group 进行比较从而识别 Causal Effect。这些手段包括 PSM,Synthetic Control Method, PSM-DID, RD,Heckman Selection Model 等等。
(二)、随机试验
在随机试验(Random Experiment)中,选择性误差可以通过随机化的方法来克服,遗漏变量的问题也可以得到完美控制(控制其他变量不变)。假设有一个treatment,把随机的一群人随机分成两个组别,A组为 control group (D=0),B 组为 treatment group (D=1)。如果能实现完美的随机(有难度)的话,我们要测量 treatment effect 怎么做呢?很简单,我们就把 treatment group 的 Outcome Variable 取平均值,然后把 control group 里的人的 Outcome Variable 取平均值。两者相减:
treatment effect = E ( Outcome | D=1 ) - E ( Outcome | D=0 )
treatment effect 就出来了,这个就是 non-parametric estimation(plus 不要觉得非参估计就高大上,有时很直白.....) 。
但是在观测性研究中(经济学、社会学的大部分研究),类似的随机化是不可能完成的,因此社会科学家们通过精巧的研究设计(Research Design),大多都是努力构造一个趋近完美的反事实(counterfactual)对照组来识别。
(三)RDD 与局部随机
RDD好在哪里?它好在能做到局部随机 ( Sharp RD的话)。举个例子:
假定今年有一种录取考试,分数公布之后,暨大决定只录取 2200 分以上的考生,2200 分以下的决不录取。那么当你的分数大于 2200 分时,你进入暨大的概率就为1,否则为0。Score = 2200 处形成一个跳跃点 cut-off point(如图所示),Score被叫做 running variable,forcing variable。
断点回归设计的原理就是,在个体(考生)不能完全操控且不能预知暨大录取分数线的时候,暨大随机决定一个分数的情况下,我们可以把接近2200分(断点)附近的考生看成是几乎一样的个体,因为考2199分的同学和考2201分的同学基本上是没有差别的(随机),表现在: background characteristics should be similar near 2200 and the other variables cannot have a threshold in 2200。
那么暨大决定的2200分数线就是一个外生的试验控制。相当于把2200分附近的同学随机的分配到: {读暨大,不读暨大}。
断点回归设计的最大缺点在于:外部有效性很弱。在实证分析的因果推论中,有外部有效性(external validity)和内部有效性(internal validity)两个概念。
因为断点回归只能做到局部(断点附近)随机,它能准确推断出来的也就是这断点附近人群的政策效果。要把局部政策效果外推,将非常困难。
最大的优点是局部,最大的缺点也是局部。是不是很有趣?
三、例子
下面,接上述例子,用 stata 给大家演示一下 Sharp RDD 的缺乏外部有效性的特点。
clear
set obs 20000
set seed 101
* 假设共有20000名考生
* 假定考试分数是均匀分布的(并不接近现实)
gen Score = 600 + int(181*uniform())*10
* 暨大录取分数为:2200
recode Score (0/2200=0) (2200/2400=1), gen(暨大)
* 其他辅导变量影响 performance 而独立于分数和暨大的 treatment。
gen mentoring = rbinomial(1,.5)
* 假设分数更高的同学即使没有被 暨大t reat 也有更好的 performance
gen performance = 25 + 2*(Score/1500)^3 + 3*暨大 + 1*mentoring + rnormal()*5
* 回归1:
reg performance Score 暨大 mentoring
est store m1
* 回归2:
reg performance Score暨大 mentoring if Score>2110 & Score < 2290
est store m2
* 回归3:
reg performance Score 暨大 mentoring if Score > 2140 & Score < 2260
est store m3
* 回归4:
reg performance Score 暨大 mentoring if Score > 2170 & Score < 2230
est store m4
* 回归5:
reg performance Score 暨大 mentoring if Score > 2185 & Score < 2215
est store m5
esttab m1 m2 m3 m4 m5, ar2 compress nogap star(* 0.1 ** 0.05 *** 0.01)
红色圈住部分 “暨大treatment” 的系数估计结果变化表明,选择不同的 bandwidth 对系数估计的影响很大,很不稳定。同时也可以从这个侧面说明 RDD 方法的外部有效性是非常有限的。
转载请联系公众号授权
点击“阅读原文(read more)”获取数据
往期推文推荐:
0、如何用Stata进行地图数据可视化
1、如何使用ArcGIS制作地图展示数据
2、Stata常用字符串数据处理函数
3、民主能促进经济增长吗?5、怎样用Stata获取已知地址经纬度坐标小花经济学术
本公众号由暨南大学经济系2013级本科生彭文威运营,致力于分享经济学科研软件应用和有趣的经济学文献。长按二维码关注