楼主: 何人来此
1430 19

[经济学] 最无害的机器学习:学习线性最优工具 IV型号 [推广有奖]

11
可人4 在职认证  发表于 2022-4-20 21:34:13
通过在阶段中使用机器学习,人们可能能够提高阶段的质量,这是由样本外的R.Wenow提出了一个论点,说明为什么改进阶段可以提高估计的均方误差。考虑一个没有协变量和I.I.D.的设置。uia和一个估计的仪器u(Zi),意思是近似e[dizi]。在线性IV中,γ(Zi)是Dionto Zi的线性投影。将一个估计量τ的额外抽样误差定义为随机量r(ü)n·Covn(ü(Zi),Yi)Covn(ü(Zi),Di)-τ,其中(Yi,Di,Zi)ni=1是一个新的独立样本,与估计量τ无关,我们对此进行了修正。subscript n表示样本量,如样本方差和协方差。量Err()是用作为工具的质量的一个不乐观的度量,因为不进行样本分裂的构形通常引入了一个偏差项,因为不能假定Cov(,Ui)很小。下面的计算,在存在恒等式加权下的协变量的情况下,我们可以在不丧失一般性的情况下,在估计最优工具后部分地去掉协变量,即,μ(Zi)=[1,μ(Zi)]>。例如,参见Friedman等人。(2001)第7.4节表明,用反向样本外Rof作为di的预测因子来衡量Err(Ⅵ):Err(Ⅵ)=nCovn(Ⅵ(Zi),Ui)Covn(ü(Zi),Di)=rn(ü(Zi),Di)·Varn(Di)-1√nnxi=1ü(Zi)pVarn(ü(Zi))(Uu-u)!R(ü(Zi),Di)Var(i)Var(Di)·χas n→∞,其中rns是预测Di的样本外Rof,R(·,·)是其概率极限。特别是,如果人们对strengenedidentifiation假设感到满意,那么没有什么理由不使用在分裂样本上实现最佳采样外预测性能的模型。在某些情况下,这种性能最好的模型将是线性回归,但在许多情况下可能不是,尝试更复杂的工具可能会带来更好的效果。此外,关于使用机器学习进行工具变量分析的大部分讨论集中在选择(相关或有效的)工具上(Belloni et al.,2012;Angrist和Frandsen,2019)假设稀疏性很强,这是由当工具数量较多时遇到的统计缺陷引起的。根据上面的启发式,正如Hansen和Kozbur(2014)所指出的那样,一个更精确的框架可能是结合工具来形成内生回归的更好预测。(什么时候)机器学习有用?我们通过讨论我们与Angristand Frandsen(2019)有关的工作来结束本节,他们指出,在基于Angristand Krueger(1991)数据的模拟设计中,在设计阶段使用套索和随机森林方法在实践中似乎没有提供很大的性能改善。我们注意到,根据我们在上文关于阶段筛选和估计质量之间的联系的讨论,关于估计精度的一个很好的启发式总结是在homoskedastic情况下,在筛选工具和真正的最优工具之间的r-E[Di Wi]。在某些情况下,条件期望E[Di Wi]很可能用线性回归估计得很好,而Lasso或随机森林在样本外预测质量方面并没有提供很大的好处。SinceAngrist和Krueger(1991)的工具是四分之一出生的相互作用,因此是二元的,事实上,与非线性或复杂的方法相比,用线性回归预测D可能表现得更好。机器学习方法相对于线性方法是否有效,这是一个研究者可以在实践中通过评估一个坚持集的性能来验证的问题,这个坚持集是标准的机器学习实践,但在经验经济学中尚未被广泛采用。

12
nandehutu2022 在职认证  发表于 2022-4-20 21:34:18
的确,我们观察到在real(第4节)和Monte Carlo(附录C)设置中,更复杂的机器学习方法的样本外预测质量优于线性回归,MLSS估计器的性能优于TSL,F统计量是R的单调变换,它也作为估计质量的指示。事实上,在我们对Angrist和Krueger(1991)数据进行校准的一些实验中,使用简单梯度引导方法(lightgbm)在样本外R(0.039%vs.0.05%)方面并没有优于线性回归。4经验应用我们考虑了Ash等人在刑事司法环境中的经验应用。(2019),我们考虑了美国巡回法院一级上诉法院对巡回法院管辖下的美国地区法院刑事判决长度的裁决的因果关系。阿什等人。(2019)利用上诉法官是随机分配的这一事实,并将上诉法官的特征--包括年龄、政党、教育和职业背景--作为工具变量。在刑事司法案件中,普莱因蒂几乎不上诉,因为这将涉及为同一个条件审判被告两次--在美国通常是不允许的;因此,上诉法院的推翻通常有利于被告,wemay假设了一个因果渠道,在这个渠道中,这种推翻是一个正确的ECT判决;例如,地区法院可能会因推翻而感到不宽大,如果推翻建立了被告的先例,这是自然可以预测的。为了将经验背景与我们的符号联系起来,结果变量Y是上诉判决前后判刑长度的变化,以月为单位,其中Y的正值表明上诉法院判决后刑期变长。内源性治疗变量D是无论上诉决定是否推翻了地区法院的裁决。这些工具是随机分配的审理上诉案件的巡回法官的特征,和来自电路情况的协变量X contintextual特征,由Doc2Vec嵌入(Le and Mikolov,2014)表示。我们基于通常被描述为机器学习(随机森林和LightGBM,用于光梯度引导机器)的可操作方法,计算了在身份加权下最优仪器的两个估计量,以及各种线性或多项式回归估计量,无论有没有样本分裂。我们在图1中展示了我们的结果(请参见每个估计量的精确定义的注释)。对于所有的分裂样本估计量,我们有三组点估计和控制区间,它们对应于直接分裂。我们也有排除(面板(a))和包括协变量(面板(b))的特殊情况;除了下面讨论的内容之外,结果在各个方面都是一致的。机器学习估计器在各个部门的表现类似,报告了1至2个月的量刑减少的轻微负点估计,控制间隔相当短,但包括零E和ECT。此外,Wald和Anderson-Rubin的confoundence区间是相似的,表明用ML方法构造的工具是非常强的,可以得出不失真的推论。与这些结果相比较的一个自然基准是TSL,工具要么线性进入,要么二次进入(但没有相互作用)。线性TSLS在无协变量的情况下估计略正的E&ect值,在有协变量的情况下估计略负的E&ect值。尽管它有一个紧密的Wald confoundence区间,但AR区间是quitelarge([-3.3,23.8])。这表明了一个弱仪器的问题,实际上,阶段F统计量只有1.5。二次TSLS返回的点估计接近MLSS估计,具有非常紧的Waldcon区间;但是,对应的安德森-鲁宾区间是空的。

13
kedemingshi 在职认证  发表于 2022-4-20 21:34:25
Anderson-Rubin teststest模型误诊与结构COE的零点联合,如果模型误诊,可能会报告空间隔。此外,我们仍然应该关注薄弱的工具:在我们的情况下,内源性治疗是二元的,因此模型误诊的唯一来源是异质治疗。在这种情况下,TSLS继续估计人口对象,这些对象是(可能是非凸的)边际处理的平均值,可以说研究人员仍然喜欢非空的con-dence集。分离取样方法的一个优点是安德森-鲁宾试验的力量完全用于测试结构参数,而不是测试过度参数,因为估计的仪器总是产生一个公正的系统。因此,分裂样本方法下的Anderson-Rubin区间永远不会是空的。我们的方法的另一个优点,我们在第3节和附录D中讨论过,是MLSS一致地估计边缘处理的凸平均值,假设外源仪器上的内源性处理的条件平均值是一致的。(a)排除协变量10 0 10饱和二次方差gbmtsls(二次)tsls1.6%2.3%0.0%0.0%0.0%waldanderson-rubin10 0 10估计TE(月)1.3%1.7%0.2%0.8%0.0%10 0 101.3%1.9%0.1%0.6%0.0%(b)包括协变量10 0 10饱和二次方差gbmtsls(二次)TSLSWaldAnderson-Rubin10 0 10估计TE(月)10 0 10注:三个样本分裂的点估计和预测间隔,由三个水平面板表示。TSLS和TSLS(二次型)是没有样本分裂的直接估计。在面板(a)的注释中关于内源性治疗的样本外Rofinstruments。TSLS是一个标准的TSLS估计器,没有样本分裂,使用直接来自数据集的工具。TSLS(二次型)包括仪器的二阶项(但不包括相互作用),而且没有样本分裂--特别是,它导致一个空的安德森-鲁宾区间。LightGBM和RandomForest都是MLSS估计器,其中LightGBM是一种梯度增强树算法。最后,线性、二次和饱和二次分别是线性回归、二次回归(无相互作用)和二次回归(有相互作用)作为工具的估计量的分裂样本估计量。图1:上诉法院对地区法院判决判决的推翻的E-ect估计量只有2.2(不包括协变量)和2.3(包括协变量)。基于传统多项式展开而不是机器学习的样本分裂估计量都表现不佳,样本外接近于零,因此有很大的预测间隔(点估计量在分裂中也有很大的变化)。总体而言,MLSS估计器成功地从工具中提取了比替代方法更多的变量,从而提供了更高的统计精确度。5结论在本文中,我们提供了一种简单和用户友好的分析,以应用研究人员熟悉的方式将可操作的预测纳入工具变量分析。特别地,我们记录了一个具有机器学习方法的分裂样本IV估计器作为初始阶段继承了通常工具回归的经典渐近和最优性质,只需要控制初始阶段预测一致性的弱条件。

14
kedemingshi 在职认证  发表于 2022-4-20 21:34:31
在协变量存在的情况下,我们还形式化了工具回归的矩条件,该条件继续利用排除工具中的非线性,而不会从包含的协变量中的非线性中产生虚假的识别。在识别阶段利用这种非线性允许用户从工具变量中提取更多的识别性变化,并有可能将看似弱的工具拯救为强的工具,正如我们在刑事司法背景下的模拟数据和真实数据所演示的那样。在机器学习阶段的存在下,工具变量分析的传统组件,如IDENTI-鲁棒控制集,可以无缝地扩展。我们相信,在IV环境下的机器学习是经验主义者工具箱中最无害的补充。Referencesai,C.和Chen,X.(2003)。含有未知函数的有条件矩限制模型的估计。《经济计量学》,71(6),1795-1843。-和-(2007)。半参数条件矩约束模型的估计。计量经济学杂志,141(1),5-43。-和-(2012)。含未知函数的序贯矩约束模型的半参数e-ciency界。计量经济学杂志,170(2),442-457。安德森,T.W.鲁宾,H.等。(1949)。随机方程完备系统中单个方程参数的估计。《数理统计年鉴》,20(1),46-63.安德鲁斯,I.,Stock,J.H.和Sun L.(2019).iv回归中的弱工具:理论与实践,载《经济学年鉴》,Angrist,J.和Frandsen,B.(2019)。机器劳动。技术。国家经济研究局代表。Angrist,J.D.,Imbens,G.W.和Krueger,A.B.(1999)。工具变量估计。应用计量经济学杂志,14(1),57-67。和克鲁格,A.B.(1991)。义务教育是否有损于学校教育和收入?经济学季刊,106(4),979-1014。-和-(2001)。工具性变量与文献研究:从供给和需求的调音实验。经济观点杂志,15(4),69-85。-和皮施克,J.-S。(2008年)。最无害的计量经济学:经验主义的伴侣。普林斯顿大学出版社,B.Antoine和P.Lavergne(2019)。文献-线性iv模型中的鲁棒非参数推理。Ash,E,Chen,D,Zhang,X.,Huang,Z,Wang,R,(2019).法律中的深层四:运用高维工具变量分析上诉对量刑的影响。在神经信息处理系统的进展(因果ML研讨会)。白建和吴星(2010)。数据丰富环境中的工具变量估计。计量经济学理论,pp.1577-1606年,Bekker,P.A.(1994)。工具变量估计分布的替代近似,《经济计量学:经济计量学会学报》,第657-681页。Belloni,A.,Chen,D.,Chernozhukov,V.和Hansen,C.(2012)。最优仪器的稀疏模型和方法及其在征用域中的应用。《经济计量学》,80(6),2369-2429.张伯伦(1987)。具有条件矩限制的估计的渐近性。计量经济学杂志,34(3),305-334。-(1992)。评论:面板数据中的序列矩限制。商业与经济统计杂志,10(1),20-26.陈旭和普佐D.(2012).具有可能非光滑广义残差的非参数条件矩模型的估计。经济计量学,80(1),277-321。-和-(2015)。半/非参数条件矩模型的Sieve、wald和qlr推论。《经济计量学》,83(3),1013-1079.切尔诺朱科夫,V.,Chetverikov,D.,Demirer,M.,Duflo,E.,Hansen,C.,Newey,W.andRobins,J.(2018)。治疗和结构参数的双/去偏机器学习。-,Escanciano,J.C.,Ichimura,H.,Newey,W.K.和Robins,J.M.(2016)。局部鲁棒半参数估计。

15
kedemingshi 在职认证  发表于 2022-4-20 21:34:37
arXiv预印本arXiv:1608.00033。-,汉森,C。和斯宾德勒,M。(2015)。多控件和多仪器线性模型中的后选择和后正则化推理。《美国经济评论》,第105(5),486-90页。Currie,J.,Kleven,H.和Zwiers,E.(2020)。技术和大数据正在改变经济学:miningtext以跟踪方法。载于AEA文件和论文集,第一卷。110,第42-48页,Dieterle,S.G.和Snell,A.(2016)。一个简单的诊断,以调查仪器的有效性和异质E感染时,使用单一仪器。劳动经济学,第42,76-86页。Dikkala,N.,Lewis,G.,Mackey,L.和Syrgkanis,V.(2020)。条件矩模型的极大极小估计。arXiv预印本arXiv:2006.07201.Dufour,J.-M.(2003)。计量经济学中的文献、弱工具和统计推断。加拿大经济学杂志/加拿大经济学杂志,36(4),767-808。Escanciano,J.C.和Li W.(2020)。最优线性工具变量逼近。经济计量学杂志。弗里德曼,J.哈斯蒂,T.蒂比希拉尼,R.等人。(2001年)。统计学习的要素。1.statistics New York的Springer系列。Hansen,C.和Kozbur,D.(2014)。利用正则化摇摆舞对许多弱仪器进行工具变量估计。计量经济学杂志,182(2),290-308.哈特福德,J.刘易斯,G.莱顿-布朗K.和塔迪M.(2017)。Deep IV:反事实预测的一种容易接受的方法。《机器学习国际会议》,第1414-1423页。Heckman,J.J.和Vytlacil,E.(2005)。结构方程组,处理E和计量经济学政策评估1。《经济计量学》,73(3),669-738.霍洛维茨,J.L.和李,S.(2007)。分位数回归模型的非参数工具变量估计。经济计量学,75(4),1191-1208.卡吉,T.(2019)。半参数模型中的弱识别理论。arXiv预印本arXiv:1908.10478.Le,Q.和Mikolov,T.(2014)。句子和文件的分布式表示。《机器学习国际会议》,第1188-1196页。Lei,J.,G\'Sell,M.,Rinaldo,A.,Tibshirani,R.J.和Wasserman,L.(2018)。回归的分布自由预测推理。美国统计协会学报,113(523),1094-1111.刘荣,尚志,程根(2020).关于深度工具变量估计。Mackey,L.,Syrgkanis,V.和Zadik,I.(2018)。正交机器学习:能力与限制,载于国际机器学习大会,PMLR,第3375-3383页。Mikusheva,A.和Sun,L.(2020)。用许多弱仪器推论。arXiv preprintarxiv:2004.12445.Newey,W.K.和Powell,J.L.(2003)。非参数模型的工具变量估计。经济计量学,71(5),1565-1578.Raskutti,G.Wainwright,M.J.Yu,B.(2011).q球上高维线性回归估计的极大极小率。IEEE信息论学报,57(10),6976-6994。罗宾逊,P.M.(1988)。根-n-一致半参数回归。计量经济学:计量经济学会学报,第931-954页。Severini,T.A.和Tripathi,G.(2012)。内生回归非参数回归模型线性泛函估计的界。计量经济学杂志,170(2),491-498.Staiger,D.和Stock,J.H.(1994)。用弱工具回归工具变量。技术。国家经济研究局代表。Stock,J.H.和Yogo,M.(2005)。线性iv回归中弱仪器的检验。计量经济模型的定义和推理:纪念托马斯·罗森伯格的论文集,80(4.2),1.许,R(2021).具有二元内生解释变量的弱工具。技术。技术引理和证明引理3。在假设1的条件1和条件3下,我们有(3).证明。我们将考虑figurrst语句。

16
nandehutu2022 在职认证  发表于 2022-4-20 21:34:44
观察nnxi=1μ(Zi)-μ(Zi)t>i=xj∈{1,2}nxi∈Sjμ(j)(Zi)-μ(Zi)t>iwe控制右手边,其中k·kf=Frobenius范数:nxi∈Sjμ(j)(Zi)-μ(Zi)t>if≤nxi∈Sjkμ(j)(Zi)-μ(Zi)k·ktik(kabkf≤kAkFkBkF)≤nxi∈Sjkμ(j)(Zi)-μ(Zi)knxi∈Sjktik(Cauchy)-Schwarz)=Op(1)nxi∈Sjkπ(j)(Zi)-π(Zi)k(由于条件3)p-→0中的EkTik<∞,所以最后一步是,因为非负随机变量n-1pi∈Sjkπ(j)(Zi)-π(Zi)k≥0在假设1的条件1下有收敛于零的期望。因此,xi=1μ(Zi)-μ(Zi)t>i=xj∈{1,2}nxi∈Sjμ(j)(Zi)-μ(Zi)t>i=op(1).我们现在考虑第二个陈述。再一次我们可以分解XI=1μ(Zi)-μ(Zi)uI=xj∈{1,2}nXI∈SJμ(j)(Zi)-μ(Zi)uIq+q,并证明了√nqjnnpi∈SJμ(j)(Zi)-μ(Zi)uI=op(1),其中我们写出了μ(j)(Zi)-μ(Zi)=iuI=op(1),因为Qj=eqj+op(pVar(Qj))和e[Qj]=0。注意atvar(Qj)=nxie[]i·e[Ui s-j,Zi]]≤nxie[]i]·M(条件3,假设1)。引理4。在假设2和假设1的条件3下,证明了Ωnpni=1(yi-t>iθmlssn)iut>ip-→Ω。观察到(yi-t>iθmlssn)=ui+(θ-θmlssn)>(tit>i(θ-θmlssn)+2uiti)ui+(θ-θmlssn)>vi,因此我们得到vi=tit>i(θ-θmlssn)+2uiti。注意(θ-θmlssn)>nnxi=1vixiixi>i f≤kθ-θmlssnk·nnxi=1kvikkik≤op(1)nnxi=1vi·nnxi=1kviki=1kviki=1/2npni=1kviki=op(1)如果kTik,kuikh有界期望。npni=1kviki=op(1)因为q有界四矩,所以di也有界kuthments。因此,我们可以计算nnxi=1uixi=1(i-ixi>i-ixi>i)Ui f≤nnxi=12uiki-ikki-ik+nnxi=1ki-i-ikui。注意右边第二项的期望消失:e[ki-i-ike[Ui s-j,Zi]]≤me[ki-i-ik]→0。因此第二项是一个期望消失的非负序列,因此是op(1)。为了证明该项是op(1),它需要证明that[UIK(R)IKK(R)I-(R)IK]=op(1),这反过来也是真的,因为根据假设1的条件3和Cauchy-Schwarze[UIK(R)IKK(R)I-(R)IK]<M·QE[K(R)IK]E[K(R)I-(R)IK]=op(1).定理5(正文中的定理2)。在假设3下,ARj(τ)χ2证明。我们将显示Vn、jN(0,Ω)。观察到~ui=-(~δ-δ)>xi+Uiwhere(~δ-δ)=“nxixix>i#-1nxixi>i.thenvn,j=√nxi∈Sjü(j)(Zi)ui-√nxi∈Sj"a(j)(Zi)x>i(~δ-δ)=√nxi∈Sjü(j)(Zi)ui-nxi∈Sjü(j)(Zi)x>i√nxi∈Sjü(j)(Zi)x>i。最后一个等式是从展开(~δ-δ)=并应用以下大数定律(在三角法中)得到的。Rays):nxixix>i=e[XiXi]{z}可逆+op(1)nxiü(j)(Zi)x>i=e[ü(j)(Zi)x>iü(j)]+op(1),对此,假设3的四阶矩条件(iii),(iv)为su条件(i)和(ii)是中心极限定理Vn,jN(0,Ω)在μ(j)条件下的Lyapunov条件。由于极限分布不依赖于μ(j),且条件为μ(j)-几乎确定,因此也无条件地表示为Vn,jN(0,Ω)。接下来,我们证明了Ωn,jp-→Ω。根据条件(ii)和大数定律(因此npiui(ü(j)(Zi))-在一维中,Pr(Z≤tü(j))a.s.-→Φ(t)意味着Pr(Z≤t)→Φ(t)通过支配收敛。我们可以用Cramer-Wold器件将多维情况简化为标量情况。λnxi)(ü(j)(Zi)-λnxi)>p-→Ω),它表明了Ωn,j=nxiui(ü(j)(Zi)-λnxi)(ü(j)(Zi)-λnxi)>+op(1).写~ui=ui-(~δ-δ)>xiand~ut(j)=[ü(q)(Zi)j)-λnxi]-(~λ-λn)>xi。将和进行扩展,所得结果为:Ωn,j=nxiui[ü(j)-λnxi][ü(j)-λnxi]>+(~δ-δ)>nxiain!+(~λ-λn)>nxibin!对于某些Ain,bin涉及Ui,Xi,ü(j)四项的乘积。由于第四个矩被(iii)限定,我们有npiain=Op(1)和npibin=Op(1)。因为~δ-δ和~λ-λna都是op(1),所以我们有了所需的扩展。

17
何人来此 在职认证  发表于 2022-4-20 21:34:50
因此,根据Slutsky定理,ARj(τ)Z>Ω-1Z≈χdim diwherez'AN(0,Ω).与NPIVA有关的基本建模方法是NPIV模型,它将未知结构函数g作为一个内维参数,并考虑模型[Y-G(T)Z]=0。(NPIV)研究人员可能对g本身或g的某些泛函感兴趣,如平均导数θ=e[T]d(T)z或最佳线性近似β=e[T>]-1e[T(T)]。人们可能想知道选择参数函数形式来代替g(T)是否不会失去一般性。例如,Y在T上的线性回归得到了结构函数E[Y T]的最佳线性逼近,因而具有吸引人的非参数解释;问一个类似的性质对于IV回归是否成立可能是一个未知数。如果一个类似的性质确实成立,我们可能会在第二阶段对线性更淡定。不幸的是,将g建模为线性并不能产生最佳线性逼近,至少在L-范数方面没有。Escanciano和Li(2020)表明,最佳线性逼近可以写成一个特定的IVregression估计和β=E[h(Z)T>]-1E[h(Z)Y],其中h具有E[h(Z)T]=T的性质。请注意,如我们在2.1节中所考虑的,在同态、非协方差线性IV上下文中,对于e-cient工具,最优工具是d(W)=e[DW]。根据最优工具的IV估计等于最佳线性近似β的一个条件,就是预测D在D上的投影在D本身是线性的一个奇怪的条件:对于某些可逆A,E[D(W)D]=ad。例如,在D,W是联合高斯的且所有条件期望都是线性的情况下,这个条件是成立的,但认为它一般成立是非常荒谬的。因此,一般情况下,线性IV不能恢复对非线性结构函数的最佳线性逼近,但如果我们得到估计并成为对结构函数的最佳线性逼近,一个简单的计算就可以表征线性方法的偏差。假设我们形成一个工具变量估计,它收敛于一个形式为γ=e[f(Z)t>]-1e[f(Z)Y]的估计。很容易看出γ-β=hg-e*[gT],μ-E*[μT]I,其中hA,Bi=E[AB],μ(T)=e[f(Z)T],而E*[AB]是A到B的最佳线性投影。这意味着两个Estimats是相同的当且仅当μ(·)或g(·)中至少有一个是线性的,事实上,所有其他都等于偏差,因为g(·)可能是严格单调的,仪器Z是强的,并且Cov(Y,Z)=0,TSLS也不能保证恢复到g的任何凸加权线性近似。4 2 0 2 4W042024W1P(W0,w1d=1)P(W0,w1d=0)图2:给定处理状态下两个仪器W的条件密度,W更小,如果μ或g更线性。重要的是,μ-e*[μt]是我们可以经验估计的对象,因为它们是条件均值,在实践中,研究人员可以估计μ-e*[μt],它通过对G.C蒙特卡罗示例1的线性假设,在没有协变量的情况下提供γ-β的界。我们考虑一个蒙特卡罗实验,其中有三个仪器W,W,WI.I.D.'AN(0,1),一个二元处理变量D和一个结果Y。治疗的概率是仪器的非线性函数spr(D=1W)=σ(3μ(W,W))sin(2W)σ(t)=1+e-t,其中μ(W,W)=0.1W+W>1sgn(WW)(W+W)。另外,选择μ(W,W)(W+W)意味着治疗倾向的异或函数模式,其中当W,W,是相同的符号时,D=1的可能性更大,而当W,W,是双符号时,D=1的可能性更小。图2中是D,W,Wis联合分布的实证说明。

18
kedemingshi 在职认证  发表于 2022-4-20 21:34:56
结果Y由Y=D+v(W,W,W)U,其中Eu=0.5(d-pr(D=1W))Z+p1-0.5z0 5立方交互作用四方交互作用四方离散化rflgboracle0 5 0 5中值估计,±1蒙特卡洛标准差[winsorized在中间95.0%]±1中值估计半个TSLS估计,±1蒙特卡洛标准差[winsorized在中间95.0%]±1 TSLS中值估计SE0.5 1.0 1.5n=500离散化rflgboracle0.5 1.0 1.5n=10000.5 1.0 1.5n=3000中值估计,±1蒙特卡洛标准差[winsorized在中间99.9%]±1中值估计SEEfficial中值估计,±1蒙特卡洛标准差[winsorized在99.9%中]注:中位估计数,winsorized标准偏差,和中位估计标准误差报告的各种估计数。由于线性IV估计量的样本方差可能不存在,所以用winsorized点估计来计算Monte Carlo标准差。这些估计量是分裂样本IV估计量,它们在仪器的构造中起着决定性的作用:Orclerefer使用真实形式Pr(D=1W)作为仪器;LGB指使用gradientboosting算法LightGBM;RF指使用随机森林;离散化是指在阈值-1,0,1离散化W、W、Wintofour水平,并使用所有4个交互作用作为类别协变量;Lin是指用W,W,wuntransformed的线性回归;四次是指无交互作用的二次回归;四次交互是指具有完全交互作用的二次回归;而Cubic Interaction是指具有完全交互的Cubic回归。后者的估计量(通过Cubic Interactive离散化)也可以直接用TSLS实现,而不需要样本分裂,我们还在顶部面板(ingreen和purple)中绘制了相应的性能总结,底部面板是最佳估计量的放大版本。图3:在附录C.1的设置下,τ的各种估计器的性能,其中Z,ZN(0,1)独立,v(W,W,W)=0.1+σ((W+W)W)。重要的是,通过构造,E[uw]=0,而真处理E&ect是τ=1。在一个分裂样本IV估计例程中,我们考虑了E[dw]第一阶段的各种估计量。特别地,我们考虑了两个机器学习估计(LightGBM和random forest)与各种更经典的线性回归估计,这些估计是基于在变换后的仪器上通过OLS对W、W、Wand估计进行变换(多项式或离散化)。对于传统的基于线性回归的估计量,我们也考虑了没有样本分裂的TSLS。图3中总结了估计器的性能以及它们的定义。我们注意到,易受约束的估计器似乎能够发现复杂的非线性关系E[D,W],并产生性能良好的τ估计,而更传统的估计器似乎在强的估计阶段有一些麻烦,导致τ估计有噪声和有偏。特别是,多项式回归基反求器通常具有中值偏置的第二阶段coe与大方差,特别是如果采用样本分裂。在基于线性回归的估计器中,基于离散化的估计器似乎更有好处。当然,严格地说,“机器学习估计器”并不是一个很好的区别。0.0.1.2.3.3立方交互作用4.3交互作用4.3交互作用4.4交互作用4.4交互作用4.4交互作用4.3交互作用4.3交互作用4.0 flgboracle0 100 200 300 f统计量95%的值n=500n=1000n=3000图4:在附录C.1的设置中,各种估计器对τ的拟合统计量。

19
能者818 在职认证  发表于 2022-4-20 21:35:02
虚线表示Stock和Yogo(2005)经验法则F=10.0.951.00n=500Cubic interactQuad InteractQuadLindiscretidedrflgboracle5%5%5%5%22%98%100%100%0.951.00n=10005%5%5%5%53%100%100%100%100%0.951.00n=30007%9%8%5%100%100%100%100%Waldanderson-Rubin(%有限凸区间注释)图5:附录C.1中Wald和Anderson-Rubin覆盖率。括号中的值是经验Anderson-Rubin区间的百分比。在较大的样本量和样本分裂的情况下是有意义的。不出所料,beletable估计器在rand-the-stage F-statistics中有更好的度量(图4)。当使用LightGBM和随机森林估计工具时,用逆方差加权估计最优工具似乎在提高第二阶段估计器的精度方面提供了适度的好处,但当我们考虑基于离散化的估计器时,好处是相当大的。我们在图5中报告推断性能。再一次,我们看到belivable方法(“机器学习方法”,在较小的程度上,离散化估计器)表现良好,Wald和Anderson-Rubin两种方法都接近名义水平。同时,不能估计强仪器的方法产生了在分裂样本设置中非常保守的参数集,并且几乎总是产生不采取参数区间形状的Anderson-Rubincon参数集。c2具有协变量,我们通过包含协变量来修改上述设计。LetX=AW+V,0 5 quad interactLinDiscretizedRFLGB0 5 0 5中值估计±1蒙特卡罗标准差[winsorized在中间95.0%]±1中值估计se0.5 1.0 1.5n=500 discretizedrflgb0.5 1.0 1.5n=100000.5 1.0 1.5n=3000median估计±1蒙特卡罗标准差[winsorized在中间99.9%]±1中值估计seentificial中值估计,±1蒙特卡罗标准差[winsorized在中间99.9%]注:各种估计器报告的中值估计、winsorized标准差和中值估计标准差。Monte Carlo标准差是由winsorized点估计计算的,因为线性IV估计器的样本方差可能不存在。估计器是分裂样本IV估计器,它在仪器的构造中起着决定性的作用:LGB,指的是使用梯度boosting算法LightGBM;RF指使用随机森林;离散化引用:将W,W,W,离散化为阈值为-1,0,1的四个水平,并将所有4个交互作用作为分类变量(categoricalcovariates);Lin用W,W,wuntransformed表示线性回归;Quad Interaction是指具有完全交互的四次递进。底部面板是最佳性能估计器的放大版本。图6:在附录C.2的设置中,不同估值器对τ的性能,其中VN(0,I)和a=“1 0.4 0.30.5 2 0.2#,是两个协变量:X=[X,X]>。如果X>0,则我们用概率0.3来获得~D,我们让~y=~D+X>”0.10.3#+u作为修改后的结果。和前面一样,e[uw]=0,而真的e-ect是τ=1。然而,我们注意到DGP中的变化意味着这里的设置和附录C.1中的设置是相似的,但不能直接比较--不清楚与附录C.1中的设置相比,这里的设置更容易还是更难估计。我们在图6中显示了估计性能,在图7中显示了推断性能,就像我们在inFigures 3和5中所做的那样。再说一遍,我们通常对beletable方法有更好的性能,而多项式回归方法似乎没有类似的性能。在这种情况下,当样本量很小时,即使是基于机器学习的方法有时也会产生一个弱的估计工具。

20
何人来此 在职认证  发表于 2022-4-20 21:35:04
此外,有趣的是,在这种情况下,对于使用LGB和RF来构造仪器的设置,与没有逆方差加权的方法相比,e-cient方法并没有产生明显的改进。如果有的话,逆方差加权在样本中的表现似乎更差,这可能是由于估计过程中的额外噪声。非均匀处理下的D解释E-ects假设对于一些标量函数a,b,a(·)≥0且e[a(Wi)]<∞的情况,γ(Wi)=a(Wi)[1,b(Wi)]。然后,该响应的线性IV估计,以μ为工具,可以写成边缘处理的加权平均值0.95 1.00n=500quad交互作用离散化RFLGB13%16%13%69%72%0.95 1.00n=100014%17%22%99%99%0.95 1.00n=300013%16%79%100%Waldanderson-Rubin(%有限凸区间注释)图7:附录C.2设置下的Wald和Anderson-Rubin覆盖率。括号中的值是区间形式的经验Anderson-Rubin区间的百分比,由于Heckman和Vytlacil(2005),我们在此复现:τ=ZW(v)·MTEa(v)dvZW(v)·e a(Wi)Ea(Wi)(y-y)v=v dv,其中权重为w(v)eHa(Wi)~b(Wi)(μ(Wi)>v)ie[a(Wi)~b(Wi)μ(Wi)]~b(Wi)b(Wi)-e威斯康星州),它对应于在同一权重下使用最优工具,估计是边缘处理的凸平均。在a(Wi)=1/σ(Wi)和b(Wi)=μ(Wi)的情况下,该估计是精度加权边际处理的凸平均。在异构处理E-CENTS环境下,我们强调E-CENTY比较不再有意义,因为估计量不收敛于相同的估计量。然而,与标准的线性IV估计相比,我们还是强调了使用基于最优仪器的估计器的优点:基于最优仪器的估计器保证能恢复凸加权平均处理,而使用Wias仪器的线性IV估计器可能不恢复。参见Heckman和Vytlacil(2005)的第4节,其中a(Wi)=1。一般正a(Wi)的结果随测度p(Wi,Di,Yi)7→a(Wi)E[a(Wi)]p(Wi,Di,Yi)的变化而变化,因此我们可以简单地用a(Wi)加权的期望代替期望操作数。算法1机器学习分裂样本估计和推断:一个子例程预测仪器(S-j,Sj),返回估计的仪器{(Zi):i∈Sj},其中,μ是s-j的函数。过程生成仪器(K,Data)随机地将数据分裂成S。..,SKfor j in 1,...,K do.(j)predictinstruments(s-j,Sj)结束,将...(j)合并为...返回S,...,SK,yu end procedureprocedure MLSSEstimate(K,Data)S,...,SK,GenerateInstrument(K,Data)对于全参数向量,返回θ=nnxi=1μ(Wi)t>i!-1 nnxi=1μ(Wi)t>i!和方差估计v=nnxi=1μit>i!·nnxi=1(yi-t>iθ)μix>i!·nnxi=1μit>i!·nnxi=1μit>i!->对于子向量τ,对xi进行残差化,得到~i、~Yi、~di,并计算τ=npni=1~i~d>i-1npni=1~i~Yi。假设恒等式加权结束过程(K,Data,α)假设身份权重假设一个例程AndersonRubin(α,Data),返回1-αAnderson-Rubin顺式。..,SK,对j在1,...中的...GenerateInstrument(K,Data)....,K doOn Sj,残差化π(j)(Zi),Yi,diantic Xito得到~i,~Yi,~dicijèandersonrubinα/K,n~i,~Yi,~dioi∈Sj结束返回CI=tjcijend过程

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 05:45