224628 421

[程序分享] Stata绘图(二) | 多期DID的平行趋势检验   [推广有奖]

博士生

70%

还不是VIP/贵宾

-

威望
0
论坛币
-6259 个
通用积分
101.7654
学术水平
113 点
热心指数
108 点
信用等级
95 点
经验
9708 点
帖子
119
精华
2
在线时间
332 小时
注册时间
2020-3-18
最后登录
2023-6-7

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Stata绘图(二) | 多期DID的平行趋势检验

作者:石器时代的大菠萝

多期DID的平行趋势检验有两种等价的展示方法,一是回归法,二是绘图法,前者相对容易,而后者的操作过程稍复杂。不少人借鉴了Beck et al.(2010)的做法,但该文实际用的模型是渐进DID,即最终所有个体均实施了政策,因此相关命令需要经过一定修改才能用于一般的多期DID。本文的前半部分将会简单介绍多期DID,后半部分将会参考Beck et al.(2010)对图片的设定提供一个绘图过程。

多期DID简介

两期DID:Yit=常数+Dt+Gi+ Dt* Gi+ eit
——Stata命令:reg y D G D_G 其他控制变量
注:D_G是D与G的交互项

多期DID:Yit=常数+Xit+时间虚拟变量+ ui+ eit
——Stata命令:xtreg y x i.time 其他控制变量,fe

其中,Yit是被解释变量;Dt表示政策后虚拟变量(取1表示政策之后,取0则表示政策之前);Gi表示处理变量(取1表示处理组,取0则表示控制组);Xit表示“个体i为处理组”且“时间t在政策之后”则取值为1,其他情况取值为0,有一种等价说法是——Xit表示个体i在t时间是否实施了政策。
请注意:不要把Xit理解成是交互项,因为在多期DID中,控制组样本的Dt无法给出合适的定义。简单来说,控制组样本根本不存在“政策年度”一说,更谈不上样本是发生在政策“之前”还是“之后”了。

Dt表示政策实施前后的虚拟变量,在两期DID中,因为只存在两期数据,因此其等价于时间虚拟变量。两期DID的Dt到了多期DID中,就转化为时间虚拟变量;Gi表示处理变量,由于多期DID中的个体效应ui包含了Gi的信息(Gi是ui的子集),因此同时在模型中放入Gi与ui将导致严重的多重共线性问题,应该只放入信息含量更多的ui。多期DID中的Xit来自两期DID中的Dt* Gi,尽管本文一再强调不应该把Xit理解成Dt与Gi的乘积,但是不少初学者依然会习惯性认为Xit等价于两个变量的乘积。

综上,两期DID推导至多期DID的变化过程是:Dt→时间虚拟变量,Gi→ui,Dt*Gi→Xit。多期DID没有对政策时点是否一致性提出要求,因此多期DID还适用于政策时点不一致情形。

生成Xit的Stata过程对初学者来说可能稍有难度,有的人习惯在Excel中整理数据,有的人喜欢用merge命令把数据全部匹配到一起。由于不同人有不同的习惯,下面介绍如何在Excel和Stata中应该怎么制作出这个变量。

第一种做法:使用Excel来制作Xit是非常直观的。

第一步,你需要为数据添加一列policy_year,对于控制组样本应该设定为空白值,X就是最终要生成的变量。例子中一共有16个样本。
1.png

第二步,从16个样本中,筛选出policy_year为空白值的样本,然后对这些样本的X全部赋值为0。满足条件的一共有8个。
3.png

第三步,从16个样本中,筛选出policy_year有取值的样本(一共8个样本),新变量dyear是用year减去policy_year。
4.png

第四步,从16个样本中,筛选出dyear≥0的样本(一共5个样本),然后对这些样本的X赋值为1。
5.png
6.png

第五步,取消筛选功能后,你可以在X中发现仍有空白值(3个),用0填充他们,最后再把dyear删除,X就生成完毕了。
7.png)
8.png

第二种做法:使用Stata来生成x,过程相对简单,如果不想一步步操作Excel可以考虑这种做法。

第一步,数据导入Stata。
9.png

第二步,输入命令:

gen x=0
replace x=1 if year>= policy_year
*平行趋势检验还需要生成处理变量treat(处理组取1,控制组取0)。
*这个变量在Excel中非常容易生成,因此方法一不详细介绍生成过程。
gen treat=0
replace treat=1 if policy_year!=.

多期DID的Stata命令

xtreg y x i.time 其他控制变量,fe r

提示:推荐使用聚类稳健标准误进行回归,也就是加上“r”,但是这么做或许会降低系数的显著性。为什么会这样呢?这个问题与t检验的自由度有关,本帖不展开讨论这个技术细节。如果你在多期DID的回归使用了聚类稳健标准误,那么在平行趋势检验中,你应该继续使用聚类稳健标准误,从而做到前后一致。请不要低估考虑“是否使用聚类稳健标准误”的意义,它不但影响系数的显著性,还可能影响绘图策略。

平行趋势检验的Stata命令——回归法

*变量说明:y表示被解释变量,id表示样本个体;year表示样本年份;policy_year表示政策发生年份;
*treat取1表示处理组,取0表示控制组。

set more off
xtset id year
gen distance = year - policy_year

*了解数据情况。
tab distance, missing 
*请确认distance变量是否存在以下两类问题:
*1.样本稀疏的问题,即样本个数在某些年份非常少。2.distance的取值范围太宽,检验太多期的平行趋势可能是没有必要的。
*你可以采用“缩尾处理策略”以应对上面两种问题:
*replace distance = -4 if distance < -4
*replace distance = 5 if distance  > 5

*生成一系列的变量:
*d_j的数学含义是:若样本是”处理组“且为”政策实施前的第j期“则取值为1,其他情况取值为0*dj的数学含义是:若样本是”处理组“且为”政策实施后的第j期“则取值为1,其他情况取值为0*current的数学含义是:若样本是”处理组“且为”政策实施当期“则取值为1,其他情况取值为0*例如,某个个体的政策实施于2013年,那么该个体在2012年的变量D_1取值为1,其余均为0

尽管上面给出的数学定义是十分清晰的,但为了照顾初学者,下面给出一个直观的数据描述。以d_1为例,若样本是”处理组“且为”政策实施前的第1期“(distance=-1)则取值为1(橘色区域所示),其余情况取值为0。
11.jpg

*第一步,生成变量d_j、dj、current。

*1)生成d_j,假设你在“tab distance, missing”中发现,distance最小值是-4,那么生成过程如下:
forvalues i=1/4 { 
gen d_`i'  = 0 
replace d_`i'  = 1 if treat== 1 & distance== -`i'
}

*2)生成dj,假设你在“tab distance, missing”中发现,distance最大值是5,那么生成过程如下:
forvalues i=1/5 { 
gen d`i'  = 0 
replace d`i'  = 1 if treat== 1 & distance== `i'
}

*3)生成current。
gen current  = 0
replace current = 1 if treat== 1 & distance== 0

*回归法进行平行趋势检验:
xtreg y d_4 d_3 d_2 d_1 d1 d2 d3 d4 d5 i.year 控制变量, fe r

*判别方法:若d_4 d_3 d_2 d_1均不显著,则表明平行趋势假设成立。

你可能已经注意到了,current不被包含在回归模型中,尽管我们生成了它。原因是d_j、dj、current无法同时被放进模型,否则会产生严格多重共线性问题,Stata会自动在“d_4 d_3 d_2 d_1 current d1 d2 d3 d4 d5”中随机drop掉一个变量(哪个被drop掉与顺序有关)。为了进行平行趋势检验,我们应该在d_j与current中选择一个变量并手动去掉。如果你发现检验结果不理想,可以尝试调整drop对象。被drop掉的那个变量,我们称之为基期。 若d_j的回归系数是不显著的,说明d_j的系数与基期没有显著差异,从而支持了平行趋势假设。本文的例子是以current为基期,如果你希望改变基期的位置,我在49楼写了一个以d_1为基期的代码示例。

尽管有些人还认为,可以在dj中选择一个变量去掉,但严格意义上这是不合适的。若所有d_j系数均不显著倒也无妨,同样可以说明平行趋势假定成立,但如果所有d_j的系数均显著为正(或负),那么我们无从判断d_j中任意两个回归系数是否有显著差异。另外,偶尔也会见到一些不规范的做法,比如在不采取“缩尾处理策略”情况下(前文对此策略已经用例子介绍了),只对current附近几期进行平行趋势检验,这种情况下,如果你得到了一些显著的d_j,你可能会误以为平行趋势检验没有通过。总之,基期的选择对平行趋势检验的结果是有影响的,请不要忽略这个问题。基于上述观点,tvdiff这个专门用来进行平行趋势检验的命令,由于不允许指定基期,因此价值可能有限。

平行趋势检验的Stata命令——绘图法

平行趋势检验的绘图法需要你先完成回归法的所有步骤,也就是在执行下面这条命令之后,才可以进行绘图法。下面这个回归的结果,已经可以用来判断检验是否通过了。若检验没有通过,绘图法也就没必要做了。

xtreg y d_4 d_3 d_2 d_1 d1 d2 d3 d4 d5 i.year 控制变量, fe r

如果你认为以下内容有一定操作难度,那么你可以考虑放弃用绘图法来展示平行趋势检验的结果。正如前文所述,绘图法与回归法是等价的,绘图法对论文的意义只是“锦上添花”。

方法1:采用coefplot绘制简易图形

ssc install coefplot
coefplot,keep( d_4 d_3 d_2 d_1 d1 d2 d3 d4 d5 ) levels(90) vertical lcolor(black) mcolor(black) msymbol(circle_hollow) ytitle(回归系数, size(small))  ylabel(, labsize(small) angle(horizontal) nogrid) yline(0, lwidth(vthin)lpattern(solid) lcolor(black)) xtitle(政策实施相对时间, size(small)) xlabel(,labsize(small))  graphregion(fcolor(white) lcolor(white) ifcolor(white) ilcolor(white)) ciopts(recast(rcap)) xline(10.5, lwidth(vthin) lpattern(solid)lcolor(black))

Stata15会出现字体问题;如果你是Stata14,字体会默认为宋体,因此推荐用Stata14来作图。

本文使用Beck et al.(2010)提供的数据,参照上面的命令可以得到的图片大致如下,部分地方仍需要进一步手工调整。
Graph1.png

例如,调整x轴和y轴的标签。
12.png

此处展示一个简单调整以后的图:
Graph11.png

上面这个图有个缺陷,就是无法在基期(current)的位置形成一个断点,优点是过程简单方便。一个可行的替代方案是,你可以将基期设定在最开头(即d_4),即回归模型设置为:

xtreg y  d_3 d_2 d_1 current d1 d2 d3 d4 d5 i.year 控制变量, fe r

方法2:命令直接绘图(非常推荐)

第一步:手工计算置信区间

首先考虑置信区间是如何被计算出来的。

为计算90%置信区间,需要计算t统计量,最精确的命令是:gen t = invttail ( d2 , 0.05 )

其中,参数d2是F统计量的第二个自由度,可以从前文的xtreg回归中获得这个数字。

13.png

14.png

gen t = invttail ( 48 , 0.05 )

*生成b_j的系数与置信区间(假设有4期,即distance最小值是-4;你可以手动调整下面命令的参数)
forvalues i=1/4 { 
gen b_`i' = _b[d_`i'] 
gen se_b_`i' = _se[d_`i']
gen b_`i'LB = b_`i' - t * se_b_`i'
gen b_`i'UB = b_`i' + t * se_b_`i'
}

*生成bj的系数与置信区间(假设有5期,即distance最大值是5)
forvalues i=1/5 { 
gen b`i' = _b[d`i'] 
gen se_b`i' = _se[d`i']
gen b`i'LB = b`i' - t * se_b`i'
gen b`i'UB = b`i' + t * se_b`i'
}

第二步:将上述计算结果集中反映在三个变量中

gen b = .
gen LB = .
gen UB = .

*生成系数(政策前)
forvalues i=1/4 {
replace b = b_`i'  if distance == -`i'
}

*生成系数(政策后)
forvalues i=1/5{
replace b = b`i'  if distance == `i'
}

*生成系数置信区间下限(政策前)
forvalues i=1/4 {
replace LB = b_`i'LB if distance == -`i'
}

*生成系数置信区间下限(政策后)
forvalues i=1/5 {
replace LB = b`i'LB if distance == `i'
}

*生成系数置信区间上限(政策前)
forvalues i=1/4 {
replace UB = b_`i'UB if distance == -`i'
}

*生成系数置信区间上限(政策后)
forvalues i=1/5 {
replace UB = b`i'UB if distance == `i'
}

第三步:删除重复值与无用的变量

绘图不会用到那么多变量与样本,只需要保留关键数据即可。

keep distance b LB UB
duplicates drop distance,force
sort distance

第四步:绘制图片

下面是绘图命令,与coefplot一样,即使有了绘图设定,很多地方还是需要你手动调整。如果你了解graph editor,非常推荐直接在editor中对图片进行加工。

twoway (connected b distance, sort lcolor(black) mcolor(black) msymbol(circle_hollow) cmissing(n))(rcap LB UB distance, lcolor(black)lpattern(dash) msize(medium)),ytitle(Percentage change) ytitle(, size(small))  yline(0, lwidth(vthin) lpattern(dash) lcolor(teal)) ylabel(, labsize(small) angle(horizontal) nogrid) xtitle(Years relative to branch deregulation) xtitle(, size(small)) xline(0, lwidth(vthin) lpattern(dash) lcolor(teal))  xlabel(-2(1)2, labsize(small))  xmtick(-2(1)2, nolabels ticks)legend(off)graphregion(fcolor(white) lcolor(white) ifcolor(white) ilcolor(white))

Graph2.png
优点是图片美观,基期位置生成了一个断点,这是coefplot无法做到的。最重要的是,这种方法允许你以任意d_j为基期,并且也允许你相应位置形成断点(本帖没有给如何在d_j位置形成断点的方法)。缺点是整个绘图过程比较麻烦。

当政策时点一致时,不少论文选择用两期DID的设定(即Dt、Gi、DtGi)来回归多期数据,这是一种不合适的处理方法。如果你用的命令是reg,那么信息多的ui就会被信息少的Gi取代,内生性问题可能很严重;如果你用的命令是xtreg-,fe,那么Gi的系数将会无法被固定效应模型估计出系数,因为Gi通常不随时间改变,所以不少求助帖子会问分组变量Gi的系数为什么ommited了。一种不好的做法可能是这样的,以reg Dt、Gi、DtGi i.year对多期数据进行回归,模型中还额外控制了时间虚拟变量。正如前文所述,Dt与时间虚拟变量存在很强的联系,因此如果同时在模型中放入两者,容易导致Dt、DtGi的方差膨胀因子增大,进而使Dt和DtGi系数的显著性下降。如果你的政策实施时点是一致的,你也希望用多期DID进行回归(实际上也本应如此),那么你的实际操作过程会更简单,但是本文没有把这种特例单独列出来讨论。你可以按照本文的思路照搬照做,就当它是时点不一致,只需要在最后一步绘图中做出修改,将x轴可以直接写某某年,而不是“-1”“-2”这样子。最后需要指出的是,两期DID只是多期DID的特例,切勿用两期DID的思想套到多期DID身上,这句话很重要,再怎么强调也不过分。但是,你可以拿多期DID的思想直接套在两期DID上,如果你能“反套”成功,那就真的理解了多期DID了。

参考文献
Beck T, Levine R, Levkov A. Big bad banks? The winners and losers from bank deregulation in the United States[J]. The Journal of Finance, 2010, 65(5): 1637-1667.

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 45 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
拾柒17 + 1 + 1 + 1 精彩帖子
wz琪琪琪琪 + 1 + 1 + 1 精彩帖子
jingningchen0 + 1 + 1 + 1 精彩帖子
好好学习nb + 1 + 1 精彩帖子
靠不会吧 + 1 + 1 + 1 + 1 精彩帖子
微观计量小白白 + 5 精彩帖子
Quasiq + 1 + 1 精彩帖子
南山小友 + 1 + 1 + 1 精彩帖子
大块瓜皮猫 + 1 + 1 + 1 精彩帖子
财宝粉头 + 1 精彩帖子

总评分: 经验 + 640  论坛币 + 190  学术水平 + 58  热心指数 + 51  信用等级 + 40   查看全部评分

本帖被以下文库推荐

沙发
zhoubole 学生认证  发表于 2020-3-23 11:38:02 来自手机 |只看作者 |坛友微信交流群
谢谢分享,说的很详细,非常适合初学者
已有 1 人评分论坛币 收起 理由
happy_287422301 + 60 鼓励积极发帖讨论

总评分: 论坛币 + 60   查看全部评分

使用道具

藤椅
tianwk 发表于 2020-3-25 12:20:15 |只看作者 |坛友微信交流群
thanks for sharing

使用道具

板凳
h-禾禾木 发表于 2020-3-28 20:40:01 |只看作者 |坛友微信交流群
太详细有用了,保姆级教材,赞
已有 1 人评分论坛币 收起 理由
happy_287422301 + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

使用道具

报纸
h-禾禾木 发表于 2020-3-28 20:51:57 |只看作者 |坛友微信交流群
您好!我想请问下做了检验后发现政策前三期不显著,前4、5期显著,政策后一期不显著,政策后其他期显著,这种情况算是通过了平行趋势检验了吗? 如果没有,该如何处理呢?

使用道具

地板
h-禾禾木 发表于 2020-3-28 21:07:07 |只看作者 |坛友微信交流群

您好!我想请问下做了检验后发现政策前三期不显著,前4、5期显著,政策后一期不显著,政策后其他期显著,这种情况算是通过了平行趋势检验了吗? 如果没有,该如何处理呢?

共同.PNG (23 KB)

共同.PNG

共同趋势.png (22.14 KB)

共同趋势.png

已有 1 人评分论坛币 收起 理由
happy_287422301 + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

使用道具

h-禾禾木 发表于 2020-3-28 21:07
您好!我想请问下做了检验后发现政策前三期不显著,前4、5期显著,政策后一期不显著,政策后其他期显著, ...
你可以调整基期的位置,比如从current改成d_6,这可能会有用。再或者,你可以考虑下帖子中提到的“缩尾处理策略”,你检验了政策前6期的平行趋势,可能三四期也是够的(没有明确定论)。
已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
happy_287422301 + 20 热心帮助其他会员
日新少年 + 1 + 1 + 1 精彩帖子
remlus + 100 精彩帖子
葫芦娃大王 + 10 + 10 精彩帖子

总评分: 经验 + 110  论坛币 + 30  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

8
h-禾禾木 发表于 2020-3-29 14:33:57 |只看作者 |坛友微信交流群
石器时代的大菠萝 发表于 2020-3-29 11:04
你可以调整基期的位置,比如从current改成d_6,这可能会有用。再或者,你可以考虑下帖子中提到的“缩尾处 ...
还有一个疑问想请教下,就如您所说,控制组样本由于没有实施政策,没有政策前和政策后之分,其distance是缺失值“.”也就没有d_*/d*值,那么这个平行趋势检验的样本是否只是包括了实施政策时点不同的处理组样本,相应检验的是处理组样本在政策实施前y是否有共同趋势,而平行趋势检验的是处理组和控制组在政策实施前后y的共同趋势?
已有 1 人评分论坛币 收起 理由
happy_287422301 + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

使用道具

9
石器时代的大菠萝 在职认证  发表于 2020-3-29 19:09:02 来自手机 |只看作者 |坛友微信交流群
h-禾禾木 发表于 2020-3-29 14:33
还有一个疑问想请教下,就如您所说,控制组样本由于没有实施政策,没有政策前和政策后之分,其distance是 ...
当然是所有样本。
已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子
葫芦娃大王 + 10 + 10 精彩帖子

总评分: 经验 + 10  论坛币 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

10
Yoona2511 学生认证  发表于 2020-3-29 20:06:15 来自手机 |只看作者 |坛友微信交流群
石器时代的大菠萝 发表于 2020-3-22 01:46
Stata绘图(二) | 多期DID的平行趋势检验

作者:石器时代的大菠萝
多期did的思想就是研究政策效应,xit反映的是一种状态,比起所谓dt*gi两个维度更加整合,当然这才是其本质。两期did只不过就是实验组同时发生了0到1状态的变化。另外两期did对于新手(我这样的)更便于理解,但就像楼主您说的,先学会两期是为了入门,推广到多期才是理解。不知道我这样理解对不对?
已有 3 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
happy_287422301 + 20 鼓励积极发帖讨论
日新少年 + 1 + 1 + 1 精彩帖子
remlus + 100 精彩帖子

总评分: 经验 + 100  论坛币 + 20  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 14:36