人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › Stata专版 › 谈谈因果识别与断点回归设计（RDD）

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 彭文威

22137 3

[学习心得] 谈谈因果识别与断点回归设计（RDD） [推广有奖]

0关注
9粉丝

本科生

21%

还不是VIP/贵宾

威望: 0 级
论坛币: 1116 个
通用积分: 28.6881
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 281 点
帖子: 12
精华: 0
在线时间: 143 小时
注册时间: 2014-9-19
最后登录: 2020-2-18

楼主

彭文威 发表于 2016-10-25 13:46:06 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

谈谈因果识别与断点回归设计（RDD）

来源于微信公众号：小花经济学术

引言

传统上的社会科学习惯于进行描述性分析或个体案例分析，这些工作无疑是相当重要和基础的，但是最吸引人的还是因果推断，确立变量之间的因果关系和测量因果效应更让人热血沸腾。

一、断点回归

断点回归 (Regression Discontinuity Design) 可以追溯到 Thistlewait and Campbell (1960) 的文章，RDD 被认为是仅次于随机试验的好东西。

二、基于反事实理论的因果识别

反事实理论就是和我们能够观测到的现实情况相反的一种状态（Rubin 1980）。在于反事实框架下进行因果推断的原理是这样的：

变量 X 对变量 Y 变化的因果效应可以表达为，当 X 成立时 Y 的结果与 X 不成立时 Y 的反事实结果之间的差异，如果这种差异存在且在统计上显著，则称变量 X 对变量 Y 是有因果效应的，否则二者之间就不存在因果关系。

在日常生活中，当自己生病了，然后去看了医生，结果病很快就好了，我们心里会这样来构造反事实，假如我没有去看医生的话，也许还没好呢，那么看医生的因果效应就被假设推测出来了，这是反事实理论的生活起源。

（一）观察性研究

在一般的观察数据中，我们要进行政策效果评估和因果推断时，最大的问题就是选择性偏误（Selection Bias ）。更具体地说，我们定义一个treatment 二元变量，D = {0,1} 。

Y 表示我们关心的结果变量。对于每一个个体而言，有两种潜在结果变量：

其中，Y0i 表示个体 i 没有接受 treatment 的结果变量，Y1i 表示个体 i 接受了treatment 的结果变量。那么，这个treatment 的因果效应（causal effect）就可以通过简单差分得到：

但是，在现实中，我们是不可能同时在同一个个体 i 上观测到两个潜在结果值的。一件事发生了，就无法知道他不发生时的 “反事实情况”，这被称为“反事实的不可观测性”，是因果推论中的基本问题（Holland 1986）。我们能观测到的是一组接受了 treatment 的 i 和一组没有接受 treatment 的 i。

在观测数据中，我们容易估计出来的是Observed difference in average outcome，而这个估计量由两部分组成：ATET + Selection Bias。

我们感兴趣的是ATET（平均处理效应）。那么我们的目标就是使得Selection Bias 最小甚至为0，这样我们就不得不通过特殊手段精心挑选出一个 control group 来跟 treatment group 进行比较从而识别 Causal Effect。这些手段包括 PSM，Synthetic Control Method， PSM-DID， RD，Heckman Selection Model 等等。

（二）、随机试验

在随机试验（Random Experiment）中，选择性误差可以通过随机化的方法来克服，遗漏变量的问题也可以得到完美控制（控制其他变量不变）。假设有一个treatment，把随机的一群人随机分成两个组别，A组为 control group (D=0)，B 组为 treatment group (D=1)。如果能实现完美的随机（有难度）的话，我们要测量 treatment effect 怎么做呢？很简单，我们就把 treatment group 的 Outcome Variable 取平均值，然后把 control group 里的人的 Outcome Variable 取平均值。两者相减：

treatment effect = E ( Outcome | D=1 ) - E ( Outcome | D=0 )

treatment effect 就出来了，这个就是 non-parametric estimation（plus 不要觉得非参估计就高大上，有时很直白.....) 。

但是在观测性研究中（经济学、社会学的大部分研究），类似的随机化是不可能完成的，因此社会科学家们通过精巧的研究设计（Research Design），大多都是努力构造一个趋近完美的反事实（counterfactual）对照组来识别。

（三）RDD 与局部随机

RDD好在哪里？它好在能做到局部随机 ( Sharp RD的话）。举个例子：

假定今年有一种录取考试，分数公布之后，暨大决定只录取 2200 分以上的考生，2200 分以下的决不录取。那么当你的分数大于 2200 分时，你进入暨大的概率就为1，否则为0。Score = 2200 处形成一个跳跃点 cut-off point（如图所示），Score被叫做 running variable，forcing variable。

断点回归设计的原理就是，在个体（考生）不能完全操控且不能预知暨大录取分数线的时候，暨大随机决定一个分数的情况下，我们可以把接近2200分（断点）附近的考生看成是几乎一样的个体，因为考2199分的同学和考2201分的同学基本上是没有差别的（随机），表现在: background characteristics should be similar near 2200 and the other variables cannot have a threshold in 2200。

那么暨大决定的2200分数线就是一个外生的试验控制。相当于把2200分附近的同学随机的分配到： {读暨大，不读暨大}。

断点回归设计的最大缺点在于：外部有效性很弱。在实证分析的因果推论中，有外部有效性（external validity）和内部有效性（internal validity）两个概念。

因为断点回归只能做到局部（断点附近）随机，它能准确推断出来的也就是这断点附近人群的政策效果。要把局部政策效果外推，将非常困难。

最大的优点是局部，最大的缺点也是局部。是不是很有趣？

三、例子

下面，接上述例子，用 stata 给大家演示一下 Sharp RDD 的缺乏外部有效性的特点。

clear

set obs 20000

set seed 101

* 假设共有20000名考生

* 假定考试分数是均匀分布的(并不接近现实)

gen Score = 600 + int(181*uniform())*10

* 暨大录取分数为：2200

recode Score (0/2200=0) (2200/2400=1), gen(暨大)

* 其他辅导变量影响 performance 而独立于分数和暨大的 treatment。

gen mentoring = rbinomial(1,.5)

* 假设分数更高的同学即使没有被暨大t reat 也有更好的 performance

gen performance = 25 + 2*(Score/1500)^3 + 3*暨大 + 1*mentoring + rnormal()*5

* 回归1:

reg performance Score 暨大 mentoring

est store m1

* 回归2:

reg performance Score暨大 mentoring if Score>2110 & Score < 2290

est store m2

* 回归3：

reg performance Score 暨大 mentoring if Score > 2140 & Score < 2260

est store m3

* 回归4：

reg performance Score 暨大 mentoring if Score > 2170 & Score < 2230

est store m4

* 回归5：

reg performance Score 暨大 mentoring if Score > 2185 & Score < 2215

est store m5

esttab m1 m2 m3 m4 m5, ar2 compress nogap star(* 0.1 ** 0.05 *** 0.01)

红色圈住部分 “暨大treatment” 的系数估计结果变化表明，选择不同的 bandwidth 对系数估计的影响很大，很不稳定。同时也可以从这个侧面说明 RDD 方法的外部有效性是非常有限的。

转载请联系公众号授权

点击“阅读原文（read more）”获取数据

往期推文推荐：

0、如何用Stata进行地图数据可视化

1、如何使用ArcGIS制作地图展示数据

2、Stata常用字符串数据处理函数

3、民主能促进经济增长吗？5、怎样用Stata获取已知地址经纬度坐标

小花经济学术

本公众号由暨南大学经济系2013级本科生彭文威运营，致力于分享经济学科研软件应用和有趣的经济学文献。长按二维码关注

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏20 回帖

关键词：断点回归 performance Continuity difference experiment 断点

[学习心得] 谈谈因果识别与断点回归设计（RDD） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[学习心得] 谈谈因果识别与断点回归设计（RDD） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群