楼主: mingdashike22
1407 28

[经济学] 使用面板数据估计治疗效果的精确趋势控制 [推广有奖]

21
何人来此 在职认证  发表于 2022-4-26 14:06:13
Stata“synth”软件包和R“synth”软件包均未识别该合成控件。)这表明,研究人员不应过度相信估计的w权重的意义。第二个问题涉及非负性,而且更微妙。非负性约束可能违反z=Zw,即RJ+∩{w:z=Zw}=, 在这种情况下,y1t的趋势-Ytwdue to z-如果w被迫处于RJ+,Zw可能会混淆治疗效果。非负性的重要性可能会引起争议,但值得注意的是,zandZw之间的差异可能会导致y1t中不可忽略的混淆趋势-而消极的情绪会影响记忆。如果你愿意,非负性限制可以通过,例如,训练的lassominw+,w-kq- Qw++Qw-k+λJ+1Xj=2(w+J+κw-j) ,对于一些大的正κ,受z=Zw的约束+-Zw-, w+j≥ 0和w-J≥ 0表示所有j,它修改了(5)的广义版本。如果硬非负性与z=Zw不兼容,则上述软非负性将允许某些j的wwj<0,但将尽量使wja接近非负域。然而,这种益处看起来很小,因为如果一些WJAR是负面的,那么附加在非负面性上的吸引力解释就失去了。3.2与HCW(2012)的比较HCW(2012)采用另一种方法,使用预处理观察值对选定的未处理单元子集的1吨Yt进行回归,以估计截距c和斜率因子w。然后,反事实结果形成为t>t的^c+Yt^w,其中^c和^w是OLS估计器。正如Li和Bell(2017)得出的,该估计值在平均平稳性下得到了验证。如果未观察到的趋势显示出平均非平稳性,HCW(2012)的方法需要改进。为了了解偏见的来源及其补救措施,让我们举一个zi=1的简单例子。

22
kedemingshi 在职认证  发表于 2022-4-26 14:06:20
考虑OLS估计器^c和^w,估计的治疗效果为(11)^τ1t=y1t- ^c- Yt^w=τ1t+¨γt(1- 1^w)+δt(h- Hw)+(u1t-¨Ut^w),其中¨γt-γt- ¨γpre,¨δt=δt-\'\'δpre,¨u1t=u1t- \'u1、pre和¨Ut=Ut-“Upre,带有”ξpredenoting-对于变量ξt,1PTt=1ξt。对于t,1吨的OLS回归≤ t由于¨γt(1),可能会给出该模型的^τ1的系统偏差-1^w)等术语,因为所述OLS回归不能保证^wp-→ 1.这种失败的根源实际上是内生性。下面的例子3证明了^w<1渐近(如T→ ∞) 如果Y1在YTT上回归≤ t对于zi=1且hi为空的模型,因此趋势(γt)的系统性变化可能会混淆治疗效果。例3。考虑模型yit=ui+γt+uit,其中γ皮重是常见的时间效应。让我们变得渺小→ ∞ 如HCW(2012)所述。OLS斜率估计值^w来自使用预处理观察值的1吨Yt回归,为^w=(YMY)-1YMy=[(γ1+U)M(γ1+U)]-1(γ1+U)M(γ+U)=(σγ+SU)-11σγ+op(1),其中yi=(yi1,…,yiT),Y=(Y,…,yJ+1),M=IT- T-1,U是J的T×J矩阵≥ 2和t≤ T、 γ=(γ,…,γT),σγ=plim T-1γMγ,SU=plimT-1亩。因此,当J固定时,^w=σγ(σγ+SU)-11+op(1)=σγS-1U1+σγS-1U+op(1),这意味着(12)1- 1^wp-→ (1+σγS)-1U1)-1> 0.在存在共同时间效应γt的情况下,估计的^τ1t(^w)系统地依赖于¨γt(1)- 1^w),如(11)和(12)所示。没有γt的平均平稳性,这确保了¨γt≈ 0,^τ1t(^w)系统地偏离τ1t。这个问题的一个显而易见的解决方案是,对例3中的casezi=1施加1w=1的限制,而对一般的zi施加z=Zw的限制,这正是我们的精确平衡约束。如果hi在(1)中为非空,则可以估计hic,并且可以按照第2.3节中的解释添加h=hw的约束。

23
大多数88 在职认证  发表于 2022-4-26 14:06:26
因为公共因子的数量通常是最小的,所以几乎可以肯定存在一些满足限制条件的w向量。这种改进的HCW方法是本文提出的约束岭回归的一种特例,对应于λ=0。上述约束OLS易于实现,但它需要T>J-K-1.如果有许多未经治疗的单位(J大),HCW(2012)根据研究者的判断,事先选择一个足够小的子集,这有时是武断的,但只要提供合理的解释,通常是可以接受的。z=Zw和h=Hw的约束总是至关重要的。3.3 Doudchenko和Imbens(2017)弹性netDoudchenko和Imbens(2017)建议将弹性净损失函数pts=1(y1t)最小化-C- Ytw)+λ(1)-αkwk+αkwk)无约束。他们的提议(弹性网络和无约束)可以理解为ADH(2010)的修改,也可以理解为CW(2012)对弹性网络框架的修改。当信号在治疗前阶段很强,以至于观察到的治疗前结果的匹配能够充分处理趋势时,这种弹性净解决方案可能会很好地工作(尽管由于第3.2节中解释的内生性原因,偏差可能仍然存在),但除此之外,没有设备可以控制治疗后阶段结果的异质趋势。让我们举个数字例子。图4通过将Doudchenko和Imbens(2017)的建议应用于图1中考虑的两个模拟数据集而获得。弹性净混合参数设置为α=0.9(接近套索),调谐参数为λ=0.01,该值提供了视觉上有吸引力的预处理匹配;较大的λ值(如0.1和1)在再现治疗前结果的趋势方面较差。在治疗后阶段,两组数据的结果都不一致,这似乎是由于第3.2节讨论的内生性偏差。

24
可人4 在职认证  发表于 2022-4-26 14:06:31
将1w=1作为常见时间的硬限制控制图4:由Doudchenko和Imbens(2017)构建的趋势(a)图1(a)0 5 10 15 20 25 303 4 5 7周期外处理的数据→图1(b)0 5 10 15 20 25 304.5 5 5.0 5.5 6.0 6.5 7.0 7.5周期测量的真实反事实杜德琴科和伊本斯(2017)克里奇(b)数据→真正的反事实杜德琴科和伊本斯(2017)CRIDGENote。图1中使用的模拟数据。Doudchenko和Imbens(2010)的反事实趋势是使用R包glmnet获得的,没有标准化,包括截距。弹性净混合参数为α=0.9,λ参数设置为0.01。对于(a)和(b),Doudchenko和Imbens的方法低估了治疗后的反事实结果。对于更一般的模型,effects和z=Zw给出了本文建议的弹性网络版本。值得注意的是,Doudchenko和Imbens(2017)并未提及明确的模型;看他们的介绍。换句话说,他们的目的不是控制(1)等模型的异质性趋势,而是基于治疗前结果的正则化匹配(通过正则化识别)来估计反事实趋势。4 ADH(2010)考虑的模型(1)的结论,通过对趋势变量(模型中的Zi和Hi)和其他平衡协变量(本文中的Qi)进行不同处理,我提出了治疗效果的新估计。在没有对时变系数(模型中的γ和δ)进行进一步假设的情况下,准确平衡趋势预测因子作为硬约束,对于正确处理由趋势协变量驱动的异质趋势至关重要。图1和图4展示了使精确匹配变软的顺序,其中所有现存的估计量在没有隐藏因子的情况下,对(1)生成的数据表现出妥协行为。

25
nandehutu2022 在职认证  发表于 2022-4-26 14:06:38
本文中提出的新估计方法效果良好。参考文献Sabadie,A.,A.Diamond和J.Hainmueller(2010)。比较案例研究的综合控制方法:评估加州烟草控制计划的效果,美国统计协会杂志105(490),493–505。Abadie,A.和J.Gardeazabal(2003年)。冲突的经济成本:巴斯克国家的案例研究,《美国经济评论》93(1),113–132。N.杜德琴科和G.W.伊本斯(2017年)。平衡、回归、差异和综合控制方法:综合,arXiv 1610.07748v2,2017年9月20日。Gaines,B.R.,J.Kim和H.Zhou(2018)。约束套索拟合算法,计算和图形统计日志27(4),861–871。L.戈比隆和T.麦格纳克(2016年)。区域政策评估:互动固定效应和综合控制,经济和统计回顾98(3),535–551。萧,C.,程汉生和万世凯(2012)。项目评估的面板数据方法:中国大陆香港政治经济一体化测度,应用计量经济学杂志27, 705—740。James,G.M.,C.Paulson和P.Rusmevichienton(2019年)。惩罚和约束优化:高维网站广告的应用,美国统计协会杂志,DOI:10.1080/01621459.2019.1609970。李克泰和D.R.贝尔(2017)。用面板数据估计平均治疗效果:渐进理论与实施,计量经济学杂志197,65–75。马拉特,S.(2009)。《信号处理的小波之旅:稀疏方式》,学术出版社,爱思唯尔。附录。(3)的数学证明。拉格朗日函数为L=ww+u(z-Zw)。一阶条件为(i)wa=Z^u和(ii)Z=Zwa。条件(i)意味着Zwa=ZZ^u,即z=ZZ^u,因此^u=(ZZ)-1z。

26
可人4 在职认证  发表于 2022-4-26 14:06:45
通过将其替换回(i),我们得到了wa=Z(ZZ)-1z。顺便说一句,我们也可以直接证明,在Zw=z的条件下,wa使ww最小化。对于任何满足z=Zw的ws,我们都有ww-wawa=ww-z(ZZ)-1z=ww-wZ(ZZ)-1Zw=w[I- Z(ZZ)-1Z]w≥ 0因为我- Z(ZZ)-1Z是正半定义。证据(7)。(6)isL的拉格朗日函数=(q)- Qw)(q- Qw)+λww+ `(z)- Zw),其中`是拉格朗日乘子的向量。一阶条件为(i)Gλ^w-Qq- Z^`=0,其中Gλ=QQ+λIJ,和(ii)Z=Z^w。从(i)开始,我们有(i)^w=^wridge+G-1λZ^`,其中^wridge=G-1λQq,无约束岭估计。预乘z并替换(ii)得到z=zwridge+ZG-1λZ^`,这意味着^`=(ZG-1λZ)0-1·(z)- Z~扭动)。将其替换回(i)得到(7)。证明(8)。给定约束条件z=Zw,q- Qw=~q-~Qw表示~q=q- BzandQ=Q- 因此,(6)的解与minw(q)的解相同-~Qw)(~q-~Qw)受制于z=Zw。选择B=QZ(ZZ)-1,我们有ZQ=0。让@Gλ=@Q@Q+λI,我们有@G-1λ=λI-λQ(~QQ+λIm)-1~Q,这意味着Z~G-1λ=λZand Zwridge=ZG-1λQQ=λZQQ=0。结果如下(7)。A.2数据生成过程用于生成图1(A)的数据通过以下方式生成:γt0=0.5sin(1+1.5πt/t)+2t/t,γtk=(-1) k-1×0.6 cos(-0.2π对数k+2πt/t),k=1,K、 齐克- i/J+k,zik~ iid N(0,1),ui=\'zi- i/J+ui,ui~ iid N(0,1),uit=0.1uit,uit=0.2uit-1+u*它,你*信息技术~ iid N(0,1),用户界面,-10=0,yit=ui+γt0+γtzi+uit,i=1,J、 t=1,上面我们设置了J=38、T=20、T=10、T=T+T=30和K=4,类似于ADH(2010)中的应用。数据由R生成,初始随机种子设置为55。这是引言中图1(a)的数据生成过程。

27
大多数88 在职认证  发表于 2022-4-26 14:06:52
如果γs设置为γt,则≤ t在生成γTis后,因此在预处理期间没有明显的趋势,我们有图1(b)的数据。产生的未经治疗的结果见图5。A.3关于渐近性的讨论本附录展示了如何使用无hi的模型(1)的约束岭估计建立平均治疗效果(ATE)估计的渐近性,即yit=ui+γtzi+uit。设c=(c,c),其中cadd的非正元素-1和T(=T- T) cadd的非负元素最多为1。DIDis^τ=c(y)的ATE估计量- Y^w),其中yi=(yi1,…,yiT),Y=(Y,…,yJ+1),且^w是约束桥估计量。c的一个明显选择是c=-T-1(1,…,1)和c=T-1(1,…,1),这导致toTTXt=T+1(y1t- Yt^w)-TTXs=1(y1s- Ys^w)。让真正的ATE由τ=PTt=T+1ctτ1t定义。既然z=z^w,我们就有了^τ=’τ+c(u- U^w),图5:模拟未治疗结果(a)图1的趋势(a)0 5 10 15 20 25 30-2 0 2 4 6周期结果(b)图1(b)0 5 10 15 20 25 300 2 4 6周期结果的趋势注。在每幅图中,深色线代表治疗单元,灰色线代表37个未治疗单元。其中ui=(ui1,…,uiT)和U=(U,…,uJ+1)。我们假设cj=O(T-1j)和Tj→ ∞ 对于j=0,1,上述平均算子满足。注意cc=T-1+T-1和最小值(T,T)≤ (cc)-1.≤ 如果CJ=T,最小值(T,T)-1j。在进一步假设E(uiui)的最大特征值一致有界的情况下,我们得到了CUIP-→ 每个i为0,因为E(cui)=0和var(cui)=cE(uiui)c=O(cc)→ 也就是说,对于每个i,cui=Op(kck),其中kck=(cc)1/2。当J固定时,cU^w=Op(kck),因为^w收敛,因此^τ- τ=Op(kck)p-→ 0.J增加的情况更难处理。写cU^w=(^wc) 所以(cU^w)=(w)c) vec(U)vec(U)(^w)c) 。

28
能者818 在职认证  发表于 2022-4-26 14:06:59
如果E[vec(U)vec(U)|^w]的最大特征值是一致边界的,那么迭代期望定律意味着E[(cU^w)]=(cc)E(^w^w)O(1)。对于E(^w^w),我们有^w^w≤ 2wawa+2^wb^wbdue to(8),其中wa=Z(ZZ)-1zand^wb=(QQ+λI)-1QQ.最大收缩分量WAI易于处理:wawa=z(ZZ)-1z=Op(J)-1) 因此,假设E(wawa)是有界的并不是不自然的。对于无约束脊分量,我们有^wb^wb=~q~q(~q~q+λI)-当T的最小特征值-1(~Q ~Q+λI)由一个严格正的普适常数支撑,^wb^wb的阶数与T相同-2qqqq。如果进一步计算qq的最大特征值Op(J),则^wb^wb=Op(J/T)=Op(1)。因此,我们可以假设E(^w^w)=O(1),其中cU^w=Op(kck)p-→ 0.以上我们展示了建立^τ的途径- τ=Op(kck)。然而,这种推理是不完整的。首先,很难验证C(^w)的条件≡ E[vec(U)vec(U)| w]具有一致有界的最大特征值。特别是在预处理阶段,QI通常依赖于UIT,因此C(^w)的最大特征值通常依赖于^w,其行为方式尚不清楚。其次,很难验证E(^wb^wb)有界的条件。我在上面的演示中展示了^wb^wb是随机有界的,这并不一定意味着E(^wb^wb)是有界的。在什么情况下E(^wb^wb)是有界的,需要对其进行评估,这即使不是不可能,也是有挑战性的。上述演示中的困难源于评估E[(cU^w)]的事实。人们可能想使用马尔可夫不等式(cU^w)≤ (cUUc)^w^w,这在案例J中是可分性的→ ∞ 因为cUUc最多是Jcc,而不是cc。严格的渐近性和推论是具有挑战性的,留给未来的研究。

29
三江鸿 发表于 2022-5-1 12:42:24 来自手机
感谢分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 11:59