楼主: mingdashike22
1487 28

[经济学] 使用面板数据估计治疗效果的精确趋势控制 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-4-26 14:05:12
匹配寻求使(q-Qw)(q-Qw)尽可能小,这导致(3)到(6)minw(q)的自然扩展- Qw)(q- Qw)+λww取决于用户指定的调谐参数λ的z=zwf≥ 0(如果QQ是单数,则λ>0)。这是qon Q的约束桥(CRIDGE)回归,惩罚λww,约束z=Zw。收缩参数λ与所需匹配质量(相对于幅度ww)成反比。如果λ=0(如果QQ是非奇异的,则允许),我们追求无收缩的最佳匹配。如果λ=∞, 我们放弃了平衡,追求最大收缩率,导致了上一节的失败。有限正λ是一种折衷。在所有情况下,我们都明确施加了z=Zw的限制,因此,由于不同的Zw,导致的异质趋势完全受控。给定λ,(6)的解为(7)^w=wridge+G-1λZ(ZG)-1λZ)-1(z)- Zwridge),Gλ=QQ+λIJ,其中wridge=G-1λqq是无约束岭估计(参见附录中的证明)。请注意,如果λ>0,则Gλ是可逆的,无论QQ是否为,因此,如果Z是全行秩且λ>0,则^w是很好定义的。DID使用YT^w作为构建的对照组,获得了由此产生的治疗效果估计器。^w有一个比(7)更能说明问题的表达式。为了推导它,让我们先从Q和Q中偏出Ziz。精确地说,让B=QZ(ZZ)-1,由Z上Q行的回归得到的OLS估计量矩阵,并设Q=Q- BZ和)q=q- Bz,预测错误。然后将^w分解如下:(8)^w=wa+wb,wa=Z(ZZ)-1z,^wb=(QQ+λI)-1QQ是最大收缩估计量z=Zw和无约束岭估计量^wb的总和,用于平衡与z正交的协变量(在附录中证明)。

12
mingdashike22 在职认证  发表于 2022-4-26 14:05:19
请注意,如果变量在ridgeregression过程中自动标准化,则(8)不成立,但根据实验,在z=z^w的情况下,是否标准化QI并不关键。参见Doudchenko和Imbens(2017),了解更多关于无约束正常化的信息。通过将(6)中的“norm”替换为平方的“norm ww”,我们得到了约束套索(CLASSO)版本(9)minw(q)- Qw)(q- Qw)+λkwksubject to z=Zw,其中λ再次是用户指定的参数。可以使用快速优化算法(Jameset等人,2019年;另见Gaines等人,2018年)。CRIDGE和CLASSO都缩小了参数,但只有CLASSO实现了变量选择。虽然像(8)这样的简单分解不适用于CLASSO,但修改后的约束lassominw(~q-~Qw)(~q-~Qw)+λkwksubject to z=Zwafter从qand Q中分割出zi与原始问题(9)相同。同样,如果平衡协变量要在优化算法中进行缩放,那么原始变量和分割后的变量自然会给出不同的结果。当通常的约束套索算法失败时,人们可以再次将其修改为名义弹性网范数,如Gaines等人(2018)所言。弹性净目标函数为(q-Qw)(q-Qw)+λ(1)-αww+αkwk),等于套索目标函数(qaug)- Qaugw)(qaug)- Qaugw)+λαkwk,其中qaug=(q,0)和qaug=[q,pλ(1- α) IJ];参见Gaines等人(2018年)。Doudchenkoand Imbens(2017)提出了选择λ(和α)的交叉验证方法。在尝试了几个不同的λ值之后,我建议通过可视化进行比较。例1。ADH(2010)使用综合控制方法分析了1988年加州烟草控制计划的效果。因变量是香烟消费量。使用7个变量xi=(xi1。

13
能者818 在职认证  发表于 2022-4-26 14:05:25
,xi7)作为趋势预测因子:对数人均国家个人收入(xi1)、15-24岁人口百分比(xi2)、香烟零售价格(xi3)、人均消费(xi4),所有这些都是1980-1988年期间的平均值,以及三年的滞后吸烟消费(1975、1980和1988)。平衡的协变量是治疗前的结果(1970-1988)。图2(a)绘制了ADH、λ=2的约束脊和λ相同的约束套索的反事实结果,其中zi=(1,xi)和qi=(yi1,…,yiT)。图2(a)表明CRIDGE和CLASSO的治疗效果比ADH小得多。Cridge和CLASSO的结果只是略有不同。《夏至》中的后三个变量包含在子和气中,从子和气中去除它们是无关紧要的。如果我们让zi=1和qi=(xi,yi1,…,yiT)代替,也就是说,如果ADH的七个“预测”变量被用作平衡协变量而不是趋势协变量,那么ADH,CRIDGE和CLASSO的结果都非常相似,如图2(b)所示。结果表明,XI1变量ln(人均GDP)是图2(a)和(b)之间差异的主要驱动力;如果我们让zi=(1,xi1)和qi=(xi2,…,xi7,yi1,…,yiT),得到的趋势接近图2(a)中的趋势。删除重复项(xi5、Xi6和xi7)同样没有什么后果。对于(1)给出的模型,ADH(2010)以不同的方式对待Zi中的常数项和非常数项,其中常数项通过累加约束精确匹配,非常数项以最小化的方式出现。另一方面,我的方法通过精确匹配相同地处理Zi中的所有术语。平衡Qw和Qw是另一个问题;它们被(q)的最小化所匹配- Qw)(q- Qw)无需精确平衡。

14
nandehutu2022 在职认证  发表于 2022-4-26 14:05:31
图2:加利福尼亚州香烟销售趋势(a)1和XI:趋势协变量;哎,Yitf for balling covariates 1970 1975 1980 1985 1990 200040 60 80 100 120年人均卷烟销量(包装)实际加州合成加州ADH(2010)约束脊约束套索(b)1用于趋势协变量;xi,yi1,yiTfor Balling Covariates 1970 1975 1980 1985 1990 200040 60 80 100 120年人均卷烟销量(包装)实际加州合成加州ADH(2010)约束脊约束套索。ADH(2010)数据。(a) 趋势协变量为1和xi,其中xi包含ln(人均GDP)、15-24岁的百分比、1988年、1980年和1975年的零售价格、人均啤酒消费量和人均香烟销售额(见ADH,2010年,表1);平衡协变量(qi)为yi1,耶。(b) 只有常数项被用作趋势协变量,所有变量都用于平衡。在(a)和(b)中,对于约束脊和套索,λ=2。趋势协变量和平衡协变量的作用是不同的,这是很自然的,考虑到Zi在模型中是滋扰趋势的驱动因素,并引入QI来增强可比性。关于λ的选择值得一提。如果模型的规格正确,因此UIT没有显示系统趋势,即如果UIT在z上的平均值为零,zJ+1对于所有t,则任何满足z=Zw的w都将消除y1t中混杂的系统趋势-Ytw。在这种情况下,λ的选择在原则上不会有太大区别。另一方面,y1t的系统性-治疗前的Ytw将是部分i或所有i的模型可能规格的证据,在这种情况下,匹配变量(如预治疗结果)有望缓解问题。

15
能者818 在职认证  发表于 2022-4-26 14:05:37
由于较大的λ会恶化匹配质量并增加Ytw的可变性,因此在保持Qw和Qw之间的差异在容许范围内的同时增大λ是一种可接受的做法。从理论上讲,可接受性通常对人眼来说是清楚的,因为在预处理阶段,Y1和Ysw的时间序列可以进行直观的比较,而不存在困难。此外,对于给定数据,经过训练的收缩估计量在λ上是连续的(λ=0时除外,QQ可能是奇异的),λ的微小变化只会导致YTW趋势的微小变化。2.3不可观察因素到目前为止,我们认为(1)中的情况为空。在许多应用中,几个变量足以作为趋势异质性的驱动力。此外,滞后因变量的软匹配往往会消除不可观测公共因子的必要性。然而,在某些情况下,研究人员可能希望考虑不可观察的hi,尤其是在没有可观察的趋势协变量可用的情况下。在本节中,我们将讨论如何处理hi。因为他的趋势是异质性的,所以同样有必要让手部Hw精确平衡,其中H=(H,…,hJ+1)。但这是不可行的,因为没有观察到。ADH(2010)将h=Hw替换为所有s的y1s=Ysw的充分条件≤ T、 这是不可能实现的,除非它小于J。但即使J足够大,可以容纳所有s的y1s=yswf≤ T、 ADH(2010)引入的WJI的非负性并不一定同时保证EZ=Zw和y1s=Ysw。图1说明了不利示例。当它们不被观察到时,一个明显的策略是估计它们,而不是试图绕道而行。如果ˇhidenotes hiandˇH=(ˇH。

16
kedemingshi 在职认证  发表于 2022-4-26 14:05:43
,ˇhJ+1),相应的优化问题是minw(q)- Qw)(q- Qw)+λww受制于z=Zw和ˇh=ˇHw。总的1+K+r约束条件通常由非空参数ifJ>K+1+r满足,这在通常的应用中是成立的。如果J太小,研究人员会尝试减少K或r或两者;与应用中未处理机组的数量相比,有更多的共同因素是不明智的。估算HI的一种简便方法是使用预处理数据的最小二乘法:最小u,。。。,uJ+1γ,。。。,γTδ,。。。,δTh,。。。,hJ+1J+1Xi=1TXt=1(yit- ui- γtzi- δthi),或以矩阵符号表示*,Γ,F,H*trn(Y)*- 1u*0- ΓZ*- δH*)(Y)*- 1u*0- ΓZ*- δH*)o、 Y在哪里*是i=1,…,的T×(J+1)矩阵,J+1(列)和t=1,T(行),u*是μi的(J+1)×1向量,i=1,J+1,Γ=(γ,…,γT),Z*= (z,z),δ=(δ,…,δT)和H*= (h,h)。集中损失函数为(10)minF,H*trn(我的*MZ*0- MδH*MZ*0)(我的*MZ*0- MδH*MZ*0)o,其中M=IT- T-1和MZ*0=I- Z*0(Z)*Z*0)-1Z*. 让A=我的*MZ*0.A中的公因子估计为:√T有时,与r最大特征值相对应的A的正态特征向量,以及相关的因子载荷估计器为(~h,~hJ+1)=T-1δA,其中δ是估计公因数的矩阵。注意,估计的公因数对应于Mδ,而不是δ本身,估计的因子载荷对应于H+*=H*MZ*0=H*-H*Z*0(Z)*Z*0)-1Z*= [h,h]-H*Z*0(Z)*Z*0)-1[z,z]而不是H*它本身但是,考虑到z=Zw,我们有h=Hw当且仅当h+=h+w,其中h+*= [h+,h+]。因此,我们可以在约束脊、套索和弹性网络优化中使用估计的因子载荷。尽管h+和h+^w由于+Hian和h+i(旋转后)的差异而不完全平衡,但约束估计向量^w满足z=z^w和+h=^h^w,而不是h+=h+w或h=h^w,这是令人讨厌的。

17
mingdashike22 在职认证  发表于 2022-4-26 14:05:49
因此,y- Yt^w仍然包含一个剩余的趋势项,如y所示- Yt^w=(u)- ^w)+δt(h- H^w)+(u1t- Ut^w)。但是,考虑到z=z^w和h=~h^w,我们有δt(h- H^w)=δtB-1[(Bh+-~h)- (BH+-~H)^w]例2。对于ADH(2010)中的应用,再次让xibe计算ADH(2010)使用的七个预测变量,如例1所示。在对Yita进行了时间上的贬低和横截面上的分割之后,让@hibe表示在Yita中发现的双因素载荷向量(1,xi)。如果我们让zi=(1,xi)和qi=(yi1,…,yiT),那么图3(a)中给出了使用hias额外趋势预测因子估计的反事实结果,这与图2(a)中的结果非常相似。另一方面,如果qi=(xi,yi1,…,yiT),zi只包含1,并且它包含了在时间和横截面减损后的四个估计因子载荷(没有xipartialed out),那么CRIDGE和CLASSO结果与图3(b)中所示的ADH合成对照非常相似,就像图2(b)一样。改变ZI是重要的,但在本例中,控制估算的隐藏因子负荷并没有太大的区别。在这个练习中,估计的因子负荷很好地解释了治疗前的结果。如表1所示,当xiare的七个变量中的每一个都在(b)部分中发现的四个估计因子负荷上回归时,前四个对照组的R平方较低,后三个对照组的R平方非常高(滞后结果)。当r增加到10时,结果保持稳定。

18
可人4 在职认证  发表于 2022-4-26 14:05:55
这表明,只有当qior-Zi包含一些治疗前结果时,隐藏因素的作用才是有限的。如果观察到一些共同因素(例如,偶然的线性或二次趋势),则可以通过用适当的投影矩阵替换(10)中的Mmatrix来划分这些因素。例如,如果yit=γtzi+gtui+δthi+uit,其中gt是可观察的,固定效应在gtui中,那么Mis将被替换为M[1,g],例如,其中g=(g,…,gt)。最后,共同因素的数量r可以由研究人员从外部选择,或使用自动选择程序。我推荐前一种方法。具体而言,从零开始增加rstarting并绘制估计的反事实结果,将使研究人员清楚地了解随着模型中允许更多隐藏因素,结果如何变化。3与现有估计器的比较本节将新方法与ADH(2010)、HCW(2012)和Doudchenko andImbens(2017)进行比较。图3:加利福尼亚州的卷烟销售趋势(a)zi=(1,xi),qi=(yi1,…,yiT)和r=21970 1975 1980 1985 1990 200040 60 80 100 120年人均卷烟销售(包装)ADH(2010)约束脊约束套索(b)zi=1,qi=(xi,yi1,…,yiT),r=41970 1975 1980 1985 1990 1995 200040 60 80 100 120年人均卷烟销量(包装)实际加州合成加州ADH(2010)约束脊约束拉索诺特。调谐参数λ设置为2。在(b)中,r被选择为4,因为与治疗前结果相比,有四个预测因子。

19
何人来此 在职认证  发表于 2022-4-26 14:06:01
将r改为2几乎没有区别。表1:预测变量R平方n(人均GDP)a0的R平方。348%的人年龄在15岁至24岁之间。106零售价a0。538人均能源消耗量。人均390支香烟1988年人均0.987支香烟1980年人均0.992支香烟1975年人均0.995支香烟注。样本量为J+1=39,解释变量为通过应用于横截面和时间性降低的治疗前结果的最小二乘法获得的估计因子负荷。1980年至1988年的平均值;b1984–1988年平均值。3.1与ADH(2010)的比较ADH(2010)的综合控制算法包括两层优化,我称之为“内部”和“外部”优化循环。内环为给定的Vby最小化(z)找到一个最优^w(V)- Zw)V(z)- Zw)受累加和非负性约束(本小节简称为“ADH约束”),外环通过最小化pts=1[y1s]找到最佳对角正半定义V- Y^w(V)]。最终权重估计器为^w=^w(^V)。ADH(2010)还讨论了使用用户指定的V。对于给定的V,如果存在同时满足ADH约束和精确平衡条件z=Zw的w,则内环损耗函数(z-Zw)V(z)-Zw)在这样的w下达到零。然而,即使在这种情况下,通常也无法识别唯一的w,因为约束在w中是线性的。例如,如果z=0,则为标量,且(z,z,z,z)=(-2.-1,1,2),任何对称核,如w=(,,,),w=(0,,,,0)等,使内部优化循环的损失函数最小化。在这种情况下,将通过用于优化的数值程序任意选择特定权重。

20
mingdashike22 在职认证  发表于 2022-4-26 14:06:07
相比之下,如果没有同时满足ADH约束和精确平衡条件的算法,则ADH算法将确保精确平衡以遵守ADH约束。如反复讨论的那样,图1显示了放弃精确平衡以保存ADH约束的后果。V-权重由外环最小化确定,以平衡预处理结果。(如果使用固定的V,平衡治疗前的结果无关紧要。)对于最终选择的^V,无论它是外环优化的结果还是间接给定的,解^w=^w(^V)不必是唯一的,也不必满足z=z^w。值得注意的是,V的选择与z=z^w(V)无关,因为V是由只涉及预处理结果的外环选择的。例如,如果某些V允许z=z^w(V),而其他V不允许,则ADH算法不一定选择允许z=z^w(V)的算法,因为CEV由最小化PTS=1[y1s]确定- Ys^w(V)],这不一定使[z]最小化- Z^w(V)][Z- Z^w(V)]。非负性和累加约束为从业者提供了有吸引力的解释,但其好处伴随着不平凡的成本。首先,ADH(2010)的两层优化程序可能无法收敛,或给出了次优的综合控制选择。例如,Abadie和Gardeazabal(2003)在对西班牙政治动荡的研究中发现了0.851×加泰罗尼亚+0.149×马德里的“合成巴斯克”。但一项彻底的调查表明,采用0.633×卡塔鲁纳+0.148×马德里+0.219×巴勒阿雷斯的替代综合巴斯克可以获得较低的均方根预测误差。(找到这个权重向量需要更直接地使用卡鲁什-库恩-塔克定理。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-4-15 08:48