楼主: 彭文威
22137 3

[学习心得] 谈谈因果识别与断点回归设计(RDD) [推广有奖]

  • 0关注
  • 9粉丝

本科生

21%

还不是VIP/贵宾

-

威望
0
论坛币
1116 个
通用积分
28.6881
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
281 点
帖子
12
精华
0
在线时间
143 小时
注册时间
2014-9-19
最后登录
2020-2-18

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

谈谈因果识别与断点回归设计(RDD)

来源于微信公众号:小花经济学术


引言

传统上的社会科学习惯于进行描述性分析或个体案例分析,这些工作无疑是相当重要和基础的,但是最吸引人的还是因果推断,确立变量之间的因果关系和测量因果效应更让人热血沸腾。



一、断点回归




断点回归 (Regression Discontinuity Design) 可以追溯到 Thistlewait and Campbell (1960) 的文章,RDD 被认为是仅次于随机试验的好东西。


二、基于反事实理论的因果识别




反事实理论就是和我们能够观测到的现实情况相反的一种状态(Rubin 1980)。在于反事实框架下进行因果推断的原理是这样的:


变量 X 对变量 Y 变化的因果效应可以表达为,当 X 成立时 Y 的结果与 X 不成立时 Y 的反事实结果之间的差异,如果这种差异存在且在统计上显著,则称变量 X 对变量 Y 是有因果效应的,否则二者之间就不存在因果关系。


在日常生活中,当自己生病了,然后去看了医生,结果病很快就好了,我们心里会这样来构造反事实,假如我没有去看医生的话,也许还没好呢,那么看医生的因果效应就被假设推测出来了,这是反事实理论的生活起源。


(一) 观察性研究



在一般的观察数据中,我们要进行政策效果评估和因果推断时,最大的问题就是选择性偏误(Selection Bias )。更具体地说,我们定义一个treatment 二元变量,D = {0,1} 。


Y 表示我们关心的结果变量。对于每一个个体而言,有两种潜在结果变量:



其中,Y0i 表示个体 i 没有接受 treatment 的结果变量,Y1i 表示个体 i 接受了treatment 的结果变量。那么,这个treatment 的因果效应(causal effect)就可以通过简单差分得到:



但是,在现实中,我们是不可能同时在同一个个体 i 上观测到两个潜在结果值的。一件事发生了,就无法知道他不发生时的 “反事实情况”,这被称为“反事实的不可观测性”,是因果推论中的基本问题(Holland 1986) 。我们能观测到的是一组接受了 treatment 的 i 和一组没有接受 treatment 的 i。


在观测数据中,我们容易估计出来的是Observed difference in average outcome,而这个估计量由两部分组成:ATET + Selection Bias。



我们感兴趣的是ATET(平均处理效应)。那么我们的目标就是使得Selection Bias 最小甚至为0,这样我们就不得不通过特殊手段精心挑选出一个 control group 来跟 treatment group 进行比较从而识别 Causal Effect。这些手段包括 PSM,Synthetic Control MethodPSM-DID, RD,Heckman Selection Model 等等。


(二)、随机试验



在随机试验(Random Experiment)中,选择性误差可以通过随机化的方法来克服,遗漏变量的问题也可以得到完美控制(控制其他变量不变)。假设有一个treatment,把随机的一群人随机分成两个组别,A组为 control group (D=0),B 组为 treatment group (D=1)。如果能实现完美的随机(有难度)的话,我们要测量 treatment effect 怎么做呢?很简单,我们就把 treatment group 的 Outcome Variable 取平均值,然后把 control group 里的人的 Outcome Variable 取平均值。两者相减:


treatment effect = E ( Outcome | D=1 ) - E ( Outcome | D=0 )


treatment effect 就出来了,这个就是 non-parametric estimation(plus 不要觉得非参估计就高大上,有时很直白.....) 。


但是在观测性研究中(经济学、社会学的大部分研究),类似的随机化是不可能完成的,因此社会科学家们通过精巧的研究设计(Research Design),大多都是努力构造一个趋近完美的反事实(counterfactual)对照组来识别。


(三)RDD 与局部随机



RDD好在哪里?它好在能做到局部随机 ( Sharp RD的话)。举个例子:


假定今年有一种录取考试,分数公布之后,暨大决定只录取 2200 分以上的考生,2200 分以下的决不录取。那么当你的分数大于 2200 分时,你进入暨大的概率就为1,否则为0。Score = 2200 处形成一个跳跃点 cut-off point(如图所示),Score被叫做 running variable,forcing variable。



断点回归设计的原理就是,在个体(考生)不能完全操控且不能预知暨大录取分数线的时候,暨大随机决定一个分数的情况下,我们可以把接近2200分(断点)附近的考生看成是几乎一样的个体,因为考2199分的同学和考2201分的同学基本上是没有差别的(随机),表现在: background characteristics should be similar near 2200 and the other variables cannot have a threshold in 2200。


那么暨大决定的2200分数线就是一个外生的试验控制。相当于把2200分附近的同学随机的分配到: {读暨大,不读暨大}。


断点回归设计的最大缺点在于:外部有效性很弱。在实证分析的因果推论中,有外部有效性(external validity)和内部有效性(internal validity)两个概念。


因为断点回归只能做到局部(断点附近)随机,它能准确推断出来的也就是这断点附近人群的政策效果。要把局部政策效果外推,将非常困难。


最大的优点是局部,最大的缺点也是局部。是不是很有趣?


三、例子




下面,接上述例子,用 stata 给大家演示一下 Sharp RDD 的缺乏外部有效性的特点。


clear

set obs 20000

set seed 101


* 假设共有20000名考生

* 假定考试分数是均匀分布的(并不接近现实)


gen Score = 600 + int(181*uniform())*10


* 暨大录取分数为:2200


recode Score (0/2200=0) (2200/2400=1), gen(暨大)


* 其他辅导变量影响 performance 而独立于分数和暨大的 treatment。


gen mentoring = rbinomial(1,.5)


* 假设分数更高的同学即使没有被 暨大t reat 也有更好的 performance


gen performance = 25 + 2*(Score/1500)^3 + 3*暨大 + 1*mentoring + rnormal()*5


* 回归1:


reg performance Score 暨大 mentoring

est store m1



* 回归2:

reg performance Score暨大 mentoring if Score>2110 & Score < 2290

est store m2

* 回归3:

reg performance Score 暨大 mentoring if Score > 2140 & Score < 2260

est store m3


* 回归4:

reg performance Score 暨大 mentoring if Score > 2170 & Score < 2230

est store m4


* 回归5:

reg performance Score 暨大 mentoring  if Score > 2185 & Score < 2215

est store m5

esttab m1 m2 m3 m4 m5, ar2 compress nogap star(* 0.1 ** 0.05 *** 0.01)




红色圈住部分 “暨大treatment” 的系数估计结果变化表明,选择不同的 bandwidth 对系数估计的影响很大,很不稳定。同时也可以从这个侧面说明 RDD 方法的外部有效性是非常有限的。



转载请联系公众号授权

点击“阅读原文(read more)”获取数据



往期推文推荐:

0、如何用Stata进行地图数据可视化

1、如何使用ArcGIS制作地图展示数据

2、Stata常用字符串数据处理函数

3、民主能促进经济增长吗?5、怎样用Stata获取已知地址经纬度坐标


小花经济学术

本公众号由暨南大学经济系2013级本科生彭文威运营,致力于分享经济学科研软件应用和有趣的经济学文献。长按二维码关注



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:断点回归 performance Continuity difference experiment 断点

已有 1 人评分经验 论坛币 收起 理由
葫芦娃大王 + 10 + 10 精彩帖子

总评分: 经验 + 10  论坛币 + 10   查看全部评分

沙发
alphachx 发表于 2018-8-6 08:54:04 |只看作者 |坛友微信交流群
非常好

使用道具

藤椅
sicau_sjh 发表于 2019-4-29 09:39:34 |只看作者 |坛友微信交流群
你好,能否帮忙解释一下esttab m1 m2 m3 m4 m5, ar2 compress nogap star(* 0.1 ** 0.05 *** 0.01)这个命令呢?

使用道具

板凳
神奈川熙 发表于 2019-5-11 11:21:52 |只看作者 |坛友微信交流群
sicau_sjh 发表于 2019-4-29 09:39
你好,能否帮忙解释一下esttab m1 m2 m3 m4 m5, ar2 compress nogap star(* 0.1 ** 0.05 *** 0.01)这个命令 ...
做一个excel表的意思

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-1 06:31