楼主: 何人来此
1428 19

[经济学] 最无害的机器学习:学习线性最优工具 IV型号 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-4-20 21:33:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
我们提供了直接的理论结果,证明将机器学习纳入标准线性工具变量设置是合理的。其核心思想是利用机器学习与样本分解相结合的方法,预测来自仪器的治疗变量和任何外生协变量,然后利用预测的治疗变量和协变量作为技术手段,在第二阶段恢复系数。这使得研究人员能够提取治疗和仪器之间的非线性协变,这可能通过提高仪器强度来显著提高估计精度和鲁棒性。重要的是,我们约束机器学习的预测在外生协变量中是线性的,从而避免了由于处理和协变量之间的非线性关系而产生的虚假识别。我们证明了这种方法在弱条件下给出了一致的渐近正态估计,并证明了它是半参数有效的(Chamberlain,1992)。我们的方法保留了线性工具变量方法的标准直觉和解释,包括在弱识别下,并提供了应用经济学工具箱的简单、用户友好的升级。我们用法律和刑事司法中的一个例子来说明我们的方法,检查上诉法院推翻对地区法院判决的因果影响。
---
英文标题:
《Mostly Harmless Machine Learning: Learning Optimal Instruments in Linear
  IV Models》
---
作者:
Jiafeng Chen and Daniel L. Chen and Greg Lewis
---
最新提交年份:
2021
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Methodology        方法论
分类描述:Design, Surveys, Model Selection, Multiple Testing, Multivariate Methods, Signal and Image Processing, Time Series, Smoothing, Spatial Statistics, Survival Analysis, Nonparametric and Semiparametric Methods
设计,调查,模型选择,多重检验,多元方法,信号和图像处理,时间序列,平滑,空间统计,生存分析,非参数和半参数方法
--

---
英文摘要:
  We offer straightforward theoretical results that justify incorporating machine learning in the standard linear instrumental variable setting. The key idea is to use machine learning, combined with sample-splitting, to predict the treatment variable from the instrument and any exogenous covariates, and then use this predicted treatment and the covariates as technical instruments to recover the coefficients in the second-stage. This allows the researcher to extract non-linear co-variation between the treatment and instrument that may dramatically improve estimation precision and robustness by boosting instrument strength. Importantly, we constrain the machine-learned predictions to be linear in the exogenous covariates, thus avoiding spurious identification arising from non-linear relationships between the treatment and the covariates. We show that this approach delivers consistent and asymptotically normal estimates under weak conditions and that it may be adapted to be semiparametrically efficient (Chamberlain, 1992). Our method preserves standard intuitions and interpretations of linear instrumental variable methods, including under weak identification, and provides a simple, user-friendly upgrade to the applied economics toolbox. We illustrate our method with an example in law and criminal justice, examining the causal effect of appellate court reversals on district court sentencing decisions.
---
PDF下载:
--> English_Paper.pdf (896.23 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 econometrics instrumental Multivariate coefficients

沙发
何人来此 在职认证  发表于 2022-4-20 21:33:16
最无害的机器学习:在线性IV模型中学习最优工具*Jiafeng Cheng Harvard Business School Boston,Majchen@hbs.EduDaniel L.ChenToulouse School of Economics Stoulouse,FrancedLchen@nber.orggreg LewisMicrosoft Research Cambridge,Maglewis@microsoft.com6月22日,2021年抽象我们有更直接的理论结果证明将机器学习纳入标准线性工具变量设置是合理的。其核心思想是利用机器学习与样本分解相结合的方法,预测来自仪器的治疗变量和任何外生协变量,然后利用预测的治疗变量和协变量作为技术手段,在第二阶段恢复治疗效果。这使得研究人员能够提取实验结果与仪器之间的非线性协变,从而通过提高仪器强度来显著提高估计精度和鲁棒性。重要的是,我们限制机器学习的预测在外生协变量中是线性的,从而避免了由于治疗和协变量之间的非线性关系而产生的虚假信息。我们证明了这种方法在弱条件下给出了一致的渐近正态估计,并且它可以适应于半参数E-cient(Chamberlain,1992)。我们的方法保留了线性工具变量方法的标准直觉和解释,包括在弱IDENTI条件下,并为应用经济学工具箱提供了一个简单、用户友好的升级。我们用法律和刑事司法中的一个例子来说明我们的方法,检查上诉法院推翻地区法院判决的因果关系。*这项工作以前出现在NeurIPS 2020的机器学习和经济政策研讨会上。作者感谢以赛亚·安德鲁斯、迈克·德罗斯特、布莱恩·格雷厄姆、杰·金戈特马克、森希尔·穆莱纳坦、阿什·兰巴坎、大卫·里茨沃勒、布拉德·罗斯、乔纳森·罗斯、苏普雷姆·萨卡尔、尼尔·谢泼德、拉胡尔·辛格、吉姆·斯托克、李阳·孙、瓦西里斯·西格卡尼斯、克里斯·沃克、威尔伯·汤森和埃利·塔默提供有益的评论。1介绍工具变量(IV)设计是经验经济学中的一种流行方法。Currie等人认为超过30%的NBERworking论文和顶级期刊出版物。(2020)包括一些工具变量的讨论。实践中使用的绝大多数IV设计是线性IV估计viatwo阶段最小二乘(TSLS),这是计量经济学和因果推论的标准介绍中熟悉的技术(例如Angrist和Pischke,2008)。然而,标准的TSLS在表上留下了一些由工具提供的可能提高估计精度的变异,因为它只利用了与内生回归数线性相关的变异。如果仪器与内生变量的线性相关性很低,但通过非线性变换很好地预测了内生变量,我们应该期望TSLS在估计精度和推断鲁棒性方面都表现不佳。特别是,在某些情况下,TLS会提供虚假的精确但有偏见的估计(dueto弱工具,见Andrews et al.,2019)。当外生变化包括高维数据或替代数据,如文本、图像或其他复杂属性如天气时,这种非线性设置变得越来越合理。我们发现,现有的机器学习技术为利用这种复杂的变异、提高仪器强度和估计质量提供了一个通用的目的箱。如果没有更强识别假设的科斯汀条件,用更易操作的具体情况来取代有限阶段的线性回归是不可能的。TSLS的有效性只取决于仪器与响应变量中未观察到的扰动线性无关的限制。

藤椅
能者818 在职认证  发表于 2022-4-20 21:33:22
放宽线性要求内源性残差在外源工具条件下均数为零,这一点更强。然而,很少有研究人员有令人信服的理由相信较弱的非相关性假设,而拒绝稍强的均值独立性假设。事实上,当研究人员考虑包括仪器的高阶多项式时,他们隐含地接受了比TSLS允许的更强的假设。事实上,通过不利用非线性,TSLS可能会意外地使一个强大的工具变弱,并提供虚假的精确推断:Dieterle和Snell(2016)和其中的参考文献发现,几篇应用微观经济学论文的结论对第二阶段的特殊情况(线性与二次型)敏感。在第二阶段利用机器学习的更严重的IDENTIN担忧来自第二阶段的参数函数形式。当有外生协变量包括在参数结构规定中时,这些协变量的非线性变换原则上可以是验证工具,并提供精确估计感兴趣参数的变化。例如,在Y=d>τ+X>β+U的标准IV设置中,其中X是外生协变量,强加e[ux]=0将正式导致X、X等是有效的“排除”工具。然而,鉴于研究人员所述的信息来源来自被排除的工具,这种由协变量提供的“识别变异”更多地是参数化特征的人工制品,而不是来自与研究人员科学调查有关的数据的任何严重信息。对上述问题的一个原则性反应是使第二阶段结构特征类似于wisenonparametable,从而包括一个内在的维度参数来估计,使经验指定非参数工具变量(NPIV)设计。在这方面取得了重要的理论和计算进展(除其他外,Newey and Powell,2003;Ai and Chen,2003,2007;Horowitzand Lee,2007;Severini and Tripathi,2012;Ai and Chen,2012;Hartford et al.,2017;Dikkala et al.,2020;Chen and Pouzo,2012,2015;Chernozhukov et al.,2018,2016)。然而,令人遗憾的是,NPIV在经济学的应用研究中受到的关注相对较少,这可能是由于理论上的复杂性、解释和故障排除的不确定性以及计算的可扩展性。此外,在某些情况下,对结构函数的参数限制来自理论考虑或对数线性化等技术,在这些技术中,估计的参数具有直观的理论解释和政策相关性。在这种情况下,作者可能有令人信服的理由坚持参数规定。本着对实践者友好的精神,本文考虑了在第二阶段结构关系为线性的非工具变量模型中的估计和推理,同时尽可能地考虑工具变量中的非线性,而不产生无意的和虚假的对包含的协变量的识别变异。我们的结果为机器学习方法在工具变量设计中的应用提供了直观和公正的依据。我们证明了在弱相合条件下,在样本分裂下,一个使用内生回归子和包含回归子的估计值的简单估计是相合的、渐近正态的和半参数的。constructedinstrumental变量也很容易提供弱仪器诊断和健壮程序。此外,标准诊断,如样本外预测质量,直接关系到估计的质量。

板凳
大多数88 在职认证  发表于 2022-4-20 21:33:29
在第二阶段结构函数中包含外生协变量的情况下,采用机器学习技术需要谨慎,以避免从包含的协变量的函数形式中得到虚假的识别。为此,我们将该问题表述为一个序列矩约束,并开发了利用机器学习从仪器中提取非线性变化的估计器。相关文献。我们的估计量的构造的核心技术来自于Chamberlain(1987,1992)。我们证明中的思想在双机器学习(Chernozhukov et al.,2018;Belloni et al.,2012)和半参数文献(例如Liu et al.,2020)中也很熟悉;然而,我们的论点是从研究生可以获得的基本技术出发的,并且是自成一体的。我们提出的估计量类似于Angristet al中的分裂样本IV或折刀IV估计量。(1999),但我们并不局限于线性设置或线性平滑器。Xu(2021)(针对probit)、Hansen和Kozbur(2014)(针对Ridg)、Belloni等人考虑了在IV设置的figurrst阶段使用非线性或机器学习。(2012年);切尔诺朱科夫等人。(2015年)(代表拉索)、Bai and Ng(2010)(代表Boosting)等;我们的工作可以被视为为实践者提供了一个简单的、统一的分析,这在很大程度上符合切尔诺朱科夫等人的精神。(2018年)。最后,我们将我们的工作视为与Angrist和Frandsen(2019)最近的工作相对应,该工作反对将机器学习与工具变量结合起来--这一点我们将在3.2节主要理论结果中详细探讨。我们考虑标准横截面设置,其中数据(Ri)Ni=1=(Yi,Di,Xi,Wi)Ni=1I.I.D.éP是从一些in群体中采样的。Yiis是一些结果变量,Diis是一组内源性治疗变量,Xiis是一组外源性控制,Wiis是一组工具性变量。研究者愿意证明Wiis是外源性或准实验性分配的。此外,研究人员认为,这提供了一个变异的来源,“identi”的e-ectτ。我们把内生性变量和协变量称为ti[1,d>i,x>i]>,把排除的工具和协变量称为技术工具zi[1,w>i,x>i]>。经验经济学中一个典型的说明是线性工具变量说明:yi=α+d>iτ+x>iβ+uie[WiUi]=0。(1)我们认为,研究者往往愿意假设更多的Uiis与(Xi,Wi)无关。工具变量的常见介绍(Angrist and Pischke,2008;Angrist and Krueger,2001)强调仪器引起的Diand变异与Ui无关,仪器的一个常见来源是自然实验。我们认为,这些叙述暗示了一种比TSLS要求的更强的外源性形式。毕竟,一个对称的均值-零随机变量S与S不相关,但人们很难说Sis与S无关。此外,严格地说,条件E[WiUi]=0并不自动地使Wivalid工具的多项式展开,但在实证研究中使用高阶多项式是常见的,这表明条件限制E[uiWi]=0更准确地捕捉了许多经验项目中强加的假设。考虑到这一点,我们将在整篇论文中假定独立性:e[Ui Wi]=0。这种更强的外源性假设允许研究人员从仪器中提取更多的识别性变异,但这样做需要更多的团队精神来处理这些变异阶段。2.1没有协变量让我们考虑一下我们没有外源协变量XI的情况。

报纸
可人4 在职认证  发表于 2022-4-20 21:33:35
我们的均值无关约束产生了一个条件矩约束,E[yi-t>iθWi]=0,其中θ=(α,τ>,β>)>。条件矩约束编码了一组无条件矩约束:对于所有平方可积的条件,条件矩约束中的所有相关统计信息都包含在一个包含最优工具的无条件矩约束中,并且带有最优工具的无条件矩约束提供半参数的估计和推断。在我们的例子中,μ(Wi)=σ(Wi)[1,μ(Wi)>]>,其中μ(Wi)e[Di Wi]和σ(Wi)=e[Ui Wi]。我们用μ(Wi)=e[Ui Wi]估计了μ(Wi),并形成了θ:θn=nnxi=1μ(Wi)t>i!-1 nnxi=1μ(Wi)yi!的插件估计量。(2)这在数值上等价于以μ(Wi)为工具的两级加权最小二乘法和以1/σ(Wi)加权的估计(1)。特别是,如果Uiis是同态的,则最优工具简单地为[1,μ(Wi)>]>,且估计为μ(Wi)的两级最小二乘返回估计θn。在异态性下,该工具不再是最优的(在半参数的意义上),但仍然有效。因此,我们将加权1/σ(Wi)的仪器称为e加权下的最优仪器,而不加权1/σ(Wi)的仪器称为最优仪器。此外,在我们提出的估计量为e加权的条件下,我们可以检验均值独立性,因为TSLS和我们提出的估计量是产生豪斯曼检验的两个估计量。这种方法不应与许多应用研究人员在考虑两级最小二乘时的想法混淆,即用OLS直接回归估计的仪器(Wi)-即θn=npni=1μ(Wi)μ(Wi)>-1npni=1μ(Wi)yi。这就是Angrist和Pischke(2008)所称的“禁止回归”,它通常不会返回θ的一致估计。在同一性加权下,估计μ?相当于学习μ(Wi)e[Di Wi],这是非常适合tomachine学习技术的;这只是由于对σ(Wi)e[uiwi]underecient加权的估计而稍微复杂一点。人们可能会担心,μ的初步估计会使θn的渐近分析复杂化。然而,在一个简单的采样分裂方案下,我们给出了θn的一致性、正规性和e-ciency的一个高级条件。尽管它简化了证明,并可能削弱正则性条件,但样本分裂确实减少了估计最佳仪器所用的数据量,但这些问题可以通过k倍样本分裂有选择性地缓解:例如,20倍样本分裂将数据损失限制在5%,代价是20次计算可以有选择性地并行化。尽管如此,我们还是把我们的讨论集中在两倍样本分裂上。具体地,为了简单起见,假定N=2N,并设S,S,b[N]是大小为N的两个子样本。利用另一个样本s-j的数据估计μ(Wi),对j∈{1,2}进行欠恒等式加权。μ的估计量可以是通过经验风险最小化训练的神经网络或随机森林,也可以是弹性网络等无泛化线性回归,然后通过对所有i∈SJ求取γ(j)(Wi)而形成估计量。然后,我们可以用(2)通过插入到θ中来形成θ的(恒等式加权)估计量。在e-cient加权下,在每个s-j上,我们将使用θ的恒等式加权估计量作为初始估计量来获得Ui的估计量,并类似地用Wito来预测Ui,形成σ(Wi)的估计量。在e-cient加权下,将估计的最优工具插入到(2)中,形成一个cient加权估计量。

地板
nandehutu2022 在职认证  发表于 2022-4-20 21:33:41
我们将这种估计称为机器学习分裂样本(MLSS)估计。本文主要步骤的伪代码收集在算法1中。定理1表明,当firerst-stageEstimator.(j)收敛到一个强工具时,MLSS估计是相合的和渐近正态的,当firerst-stageEstimator.(j)收敛到一个强工具时,MLSS估计是一致的和渐近正态的。此外,对于L(W)范数中的最优仪器μ?(Wi)[1,μ(Wi)>]/σ(Wi),当(j)不一致时,它是半参数的。lconsistencyconditional并不强--特别是,它比double machine learning和半参数文献(Chernozhukov et al.,2018)中通常要求的在o(n-1/4)率的lconsistencyconditiony弱,在这些文献中,这些条件被认为是温和的。形式上,正则性条件在假设1中陈述。条件简单地说明,当样本容量趋于满足时,数据估计达到一定的极限,这在Lei等人的稳定性分析中是一个类似的要求。(2018年)。第二个条件说明极限是一个强工具,第三个条件假定有界矩以保证中心极限定理。最后一个条件只对半参数E-ciency有要求,它证明了最优工具在lnorm中的干扰估计是相合的。为了标准误差估计的一致性,我们在假设2和假设1中假设了更多的边界矩。回想一下,Zi=[1,w>i],所以qi(Wi)和qi(Zi)表示同一个对象1。(μ(j)在距离上达到极限μ)存在一个可测函数μ(Zi),当j=1时,μ(j)(Zi)-μ(Zi)k→0,2、采用K倍分样,s-ji是除第j个以外的所有样本分裂折叠的并集。在Bekker(1994)型渐近序列下的多仪器设置中,在缺乏稀疏性假设的情况下,可能没有最优仪器的一致估计量(Raskutti et al.,2011)。我们并不是声称MLSS过程比双重机器学习文献有任何优势,而是简单地认为这里的统计问题表现良好,因此我们享受比通常要求的更弱的条件。在这种设置中,讨厌参数E[Di Wi]享受Mackey et al.(2018)中描述的高阶正交性质。特别是,它是正交的,因此不需要任何速率条件。直觉上,在矩条件E[ut(yi-α-t>iθ)]=0的情况下,γ(·)的估计误差没有E→ect,而该问题的这一特征使得该估计对γ(·)的估计具有鲁棒性。其中,期望对γ(j)和Zi中的随机性都有积分,但假设γ(j)和Zi是独立的。(强等价性)矩阵GE[(Zi)T>I]存在且是满秩的。(Lyapunov条件)(i)对于一些>0的矩,Eui2+<∞,Ekui(Zi)k2+<∞,E[kTik]<∞,且(ii)方差-协方差矩阵存在Ωe[Ui(Zi)(Zi)>],且(iii)条件方差一致有界:对于一些M,E[uizi]<M<∞a.s.4。(对最优仪器的一致性)我们可以把最优仪器(Zi)作为条件1.假设2(方差估计)中的极限(Zi)。设q是假设1中所定义的对象。假定下列四阶矩有界:maxe[kTik],e[Ui],ekè(Zi)k,Limsupn→∞e[kè(j)(Zi)k]<∞。定理1。设θmlssnbe为上述MLSS估计量。在假设1中的条件1-3下,√nθmlssn-θn(0,V)V(GΩ-1G>)-1=G-1ΩG->,其中G、Ω在假设1中被剔除。此外,如果假设1中的条件4成立,则渐近方差V达到半参数e-ciency界。此外,如果我们另外假定假设2,那么对于两个矩阵,G,Ω的样本对应点是一致的。定理1的证明。

7
可人4 在职认证  发表于 2022-4-20 21:33:48
我们可以计算出标度估计误差为=nθmlssn-θ=nnxi=1μ(Zi)t>i!-1√nnxi=1μ(Zi)t>i=nnxi=1μ(Zi)t>i+op(1)√nnxi=1μ(Zi)ui=√nnxi=1μ(Zi)ui+op(1)。(3)展开式(3)意味着θmlssni阶等价于插在π:θ?nnnxi=1μ(Zi)t>i!-1nnxi=1μ(Zi)Yi中的oracle估计量,它的相合性和渐近正态性从假设1的条件3下的通常论点中得到。给定(3),则根据假设1的条件2我们有一个大数定律snpni=1μ(Zi)t>ip-→G;根据条件3我们得到一个中心极限定理√npni=1μ(Zi)UiN(0,Ω)。最后,利用Slutsky定理和G非奇异的事实,我们得到了期望的收敛性≤nθmlssn-θn(0,V),如果另外假定相合条件4,则θ正好是E-Cient最优工具估计量(Chamberlain,1987),从而V达到半参数E-Cient界。最后,(3)通过弱大数定律暗示gp-→G,引理4暗示Ωnpni=1(yi-t>iθmlssn)iut>ip-→Ω,从而可以一致地估计方差。2.2外生协变量协变量的存在大大增加了分析的复杂性。在研究人员的模型下,bothWiand Xiare被认为是外生的,因此我们可以假设E[Ui Zi]=0,并将其用作条件矩限制,在此条件下,e^cient工具为Var(Ui Zi)-1E[Ti Zi],我们在前一节中的分析继续比照适用。然而,如果研究者保持线性特性yi=t>iθ+Ui,基于条件矩约束e[Ui Zi]=0估计θ可能会无意中通过Xirather中的非线性行为而不是Wi中的变化“识别”θ。这种情况可能允许研究者在仪器完全无关的情况下精确估计θ,例如,标量Xi,Xi,Xi中的高阶多项式项与di强烈相关,这可能是由于对线性矩条件的错误描述。在一个经济或因果模型下,XILLOW中的这些非线性项用于证明τ可能有令人信服的理由;然而,它们很可能不是研究者声明的数据来源,允许它们的真实性泄露到估计过程中会破坏统计操作的可信度。解决这一难题的一个想法是使结构函数也是非参数的,并将模型转换为非参数的工具变量回归(Newey and Powell,2003;艾安陈,2003年、2007年、2012年;Chen and Pouzo,2012)(讨论见附录B)。本文的另一个想法是在Xias不可容许的情况下削弱矩条件和规则非线性。为此,我们分析了模型隐含的统计限制,并考虑了松弛。条件矩约束E[uizi]=0等价于所有(平方可积)的以下正交约束,e[uizi](Wi,Xi)(yi-t>iθ)]=0。(4)条件(4)太强了,因为它允许Xito的非线性变换是有效的工具。一个自然的想法是将允许的仪器的种类限制为在Xi中部分线性的仪器,qi(Wi,Xi)=h(Wi)+x>i,从而故意从Xi的非线性变换中丢弃信息。这样做得到了以下正交性约束族:对于所有(平方可积)而言,e[ut(Wi)(yi-t>iθ)]=e[xi(yi-t>iθ)]=0。(5)我们可以把(5)看作是在结构误差UII上施加了一个正交性条件,这个条件介于TSLS和(4)之间。

8
mingdashike22 在职认证  发表于 2022-4-20 21:33:54
具体地说,如果我们将E(PL)[·Xi,Wi]定义为投影到部分线性函数(Xi,Wi):E(PL)[Ui Xi,Wi]arg minh(Xi,Wi)h(Xi,Wi)=X>I`+G(Wi)E(UI-H(Xi,Wi))上的投影算子,则要求(5)等价于要求在这个部分线性投影算子下的正交性:E(PL)[Ui Xi,Wi]=0。(6)与此相反,TSLS的Cov(Ui,Zi)=0正交性要求可以写成E(L)[·Zi]=0。(2018)在他们的论文第4.2节中推导出假设部分线性第二阶段的Neyman正交矩条件。表1:需要估计的非参数干扰参数列表。注意,需要未观测误差uii的干扰参数需要附加的初步一致估计θ。协变量xi等权重?非参数干扰参数No Yes e[Di Wi]No No e[Di Wi],e[Ui Wi]Yes Yes e[Di Wi],e[Xi Wi]Yes No e[Di Wi],e[XiUi Wi],e[Ui Wi]e(L)[·Zi]类似地被定义为Zi线性函数上的投影算子。我们看到,(6)是在TSLS和条件矩约束引起的误差上各正交结构之间的正交插值,(5)对应的矩约束是以下顺序矩约束[xi(yi-t>iθ)]=e[yi-t>iθWi]=0。(7)我们认为(7)是通常的无条件矩条件E[ZiUi]=0与可能是伪E[uizi]=0的条件矩限制之间的自然插值,只允许使用Wito中的非线性信息进行估计和推断。在将估计问题建立为(5),(6)或(7)(等价)刻画的基础上,Chamberlain(1992)讨论了E_cient估计。特别地,在同一加权下的最优仪器采用方便的形式(Zi)=E(PL)[Ti Xi,Wi]=E(PL)[Di Xi,Wi]Xi,(8),即简单的(1,Xi),以及内源处理DifromWi,Xi的最佳部分线性预测。观察到在(8)和Chamberlain(1987)的最优仪器下均匀度之间的唯一一个差值是将E修正为E(PL)。实现(8)很简单,如Robinson(1988)一样,部分线性回归可归结为两个非参数回归E[Di Wi]和E[Xi Wi],并形成以下预测函数(PL)[Di Xi,Wi]=E[Di Wi]+E(L)[Di(xi-e[Xi Wi])]。最优的工具是向量μ?(Zi)=e[Ti Wi]σ(Wi)+ehti~xi>iehui~xi~xi>i-1~xi,~xixi-e[xiuiwi]σ(Wi),并且相关的无条件矩限制集是[ui·yu?(Zi)]=0。(9)此外,在某些估计量(包括级数回归和前馈神经网络)上很容易施加部分线性结构,在这些情况下,我们可以直接使平方误差最小化,而不需要Robinson变换。(9)的直觉是:两个矩条件e[UiXi]=e[uiwi]=0提供了θ的正交信息,这阻止了我们在每个矩条件上应用最优工具。然而,我们可以将一个与另一个正交,特别是,矩conditione[~xiui]=0在e[~xiui·Ui Wi]=0的意义上与e[Ui Wi]正交。Terme[xiiwi]σ(Wi)uihxiui,UiihUi,uiiuiii被构造为xiiii到uii在内积a,Bi=e[AB Wi]下的投影。与以前一样,通过样本分裂,在数据的k-1折叠上估计干扰参数,在剩余折叠上估计矩条件,可以避免非参数估计中的复杂情况。作为对我们设置的总结,我们在表1中收集了需要firerst-step估计的讨厌参数。

9
能者818 在职认证  发表于 2022-4-20 21:34:00
估计量θmlssn=nnxi=1μ(Zi)t>i!-1nnxi=1μ(Zi)yi与(2)相同,在假设1的条件1-3下,对定理1进行了相同的分析,θmlssn=1μ(Zi)yi是一致且渐近正态的,另外,如果在它们各自的设置中,θmlssn=nnxi=1μ(Zi)yi的L-极限与最优工具μ一致,则是半参数的。最后,我们对带有外生协变量的情形作了两个说明,假定恒等式加权可分离。首先,e[Di Wi]=0和(8)有可能产生coe_cientτ的精确估计。其原因是,对于部分线性特性di=h(Wi)+x>i+Vito有可能生成零h(Wi)但零条件期望,这与某些回归coe_cients在不对Xi进行调整的情况下可能为零,但在对Xi进行调整的情况下可能为非零类似。这是否使Wia成为合理的外生和强大的工具可能取决于上下文的具体情况。用E[Di Wi]代替E(PL)[Di Xi,Wi]可以产生稳健性检验,它以E_ciency为代价提供一致的渐近正态估计(假设强工具)。其次,一个类似于Frisch-Waugh-Lovell-Ordouble机器学习的过程,即从Yi,Di中分离出Xi,然后将yi-e(L)[Yi Xi]=τdi-e(L)[Di Xi]+uie[Ui Wi]=0(10)作为一个条件矩限制,也得到了一致的渐近正态估计。然而,对(10)使用“最优”工具--预测残差E[di-e(L)[di-xi]Wi]--不能实现参数化E_ciency,因为它单独使用顺序矩限制(7)中的信息,而没有共同考虑它们,并将其中一个与另一个正交,导致E_ciency损失。3讨论“禁止回归”。由于“禁止回归”,在“禁止回归”中,研究人员通过非线性方法对D估计的Y进行回归,这种回归是由对TSL的启发式解释驱动的。正如Angrist和Krueger(2001)所指出的,这种回归是不一致的,而一致性估计来自于用D作为D的工具,就像我们所做的那样,而不是用D代替D-在线性阶段的情况下,这两个估计在数值上是等价的,但不是一般的。这里的正交不是指Neyman正交性(Chernozhukov et al.,2018),而是简单地意味着这两个omoment是不相关的。异质处理下的解释E.假设Diis二元,假设Yi=diyi(1)+(1-Di)Yi(0)。假设处理遵循Roy模型,di=(μ(Wi)≥Vi),其中Vi~nunif[0,1]。在这种情况下,条件矩限制(1)是错误的,因为它假定了恒定的处理,而仪器的不确定选择将产生收敛于不确定总体量的估计量。然而,Heckman和Vytlacil(2005)(Section 4)的结果表明,不同的工具选择会产生估计边缘处理的间接权重的估计量;此外,最优工具,无论是在相同权重下还是在最优权重下,都对应于MTE的凸平均,而对于具有WIAS工具的线性IV估计,如果不假定E[Di Wi]是线性的,则没有这样的保证。在附录D中详细说明了MTE的权重,弱IV检测和鲁棒推理。在Baiand Ng(2010)之后,我们工作的一个主要实际动机是使用机器学习来拯救由于缺乏线性相关性而脆弱的仪器;然而,仪器可能是不可挽回的弱,提供弱仪器鲁棒性在实践中是重要的。

10
大多数88 在职认证  发表于 2022-4-20 21:34:07
与此相关,Xu(2021)、Antoine和Lavergne(2019)也考虑了非线性阶段的弱IV推断;Mikusheva和Sun(2020)最近开发了存在许多或弱仪器的分裂抽样的优点,并将其提交给Dufour(2003)、Angrist等人(1999)、Staiger和Stock(1994),以及其中的参考文献;Kaji(2019)提出了半参数建立中弱参数化的一般理论,在弱IV检测中,我们的过程产生了估计的最优仪器,从而得到了合理的矩条件。因此,在具有单一内源性治疗变量的模型中,theStock and Yogo(2005)F-统计经验法则无论同方差还是异方差(Andrews et al.,2019),都有其确切的解释,而第1阶段F-统计可以作为检测弱仪器的工具。对弱仪器的预测试扭曲了下游的推断。或者,弱IV鲁棒性推论,即无论仪器强度如何都有效的τ推论,通常是首选的。我们提出的过程,在身份加权下,很容易与简单的健壮过程兼容。特别是,在每个子样本Sj上,我们可以执行Anderson-Rubin检验(Anderson et al.,1949),并通过Bonferroni校正将子样本的结果组合起来。对于在95%标称水平上的两倍样本拆分,这相当于在每个子样本上相交两个97.5%标称AR值间隔,这些值间隔可以使用现有的AR值间隔实现软件来计算。更正式地说,考虑无效假设h:τ=τ。考虑一个Frisch-Waugh-Lovell过程,它将协变量xi部分化。设残差为Ui(τ)yi-d>iτ,且设~Ui(τ)Ui(τ)-~δ>xibethe残差Ui(τ)分出xi[1,x>i]>后。假定估计的仪器形式为:γ(Zi)=[1,γ(Zi)>,x>i]>,其中dimγ(Zi)=dimdi;同样,从估计的工具中部分地取出xi,得到~γ(j)γ(j)-~λ>xi。最后,考虑残差与仪器之间的方差Vn,j(τ),在划分出协变量Xi后,设Ωn,jbe为Vn,j的方差矩阵的估计:即Vn,j(τ)√nxi∈Sj"a(j)(Zi)~ui(τ)和Ωn,j(τ)nxi∈Sj~ui(τ)~(j)(Zi)>,即TSLS的最坏情况偏差超过OLS最坏情况偏差的10%(Andrews et al.,2019),第j个子样本上的Anderson-Rubin统计量为Vn,j:arj(τ)v>n,jΩ的归一化幅值-1 n,jVn,j。在H下,由于排除限制,我们应该期望Vn,jbe是零高斯的,因此arje应该是χ.事实上,定理2表明,在每个子样本上,保证收敛的欠温和有界矩条件(假设3),ARj(τ)达到一个极限χ2分布。在弱IV渐近条件下,AR统计量在子样本间不一定是渐近不相关的,因此我们求助于Bonferroni过程来输出一个单间隔。假设3(AR统计量的有界矩)。在不损失一般性和必要时归一化的情况下,假定估计的工具是归一化的:pi∈Sjü(j)k(Zi)=1,对于所有k=1,。..,dim di.设λne[XiXi]-1e[ü(j)(Zi)x>iü(j)]是μ(j)(Zi)在xi上的投影coe_cient。假定在概率为1的情况下,序列μ(j)=μ(j)nsatis满足李雅普诺夫条件(i)e[uikü(j)(Zi)-λnxi)(ü(j)(Zi)-λnxi)(ü(j)(Zi))<c<∞,且假定(iii)极大e[kü(j)k],e[Ui],e[kXik]<c<∞且(iv)e[xix>i]是可逆的。定理2。在假设3下,ARj(τ)χ2证明。在假设3下,我们将检验收敛性Vn,jN(0,Ω)和Ωn,Jp-→Ω的证明下放到附录中。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 22:33