楼主: 何人来此
1889 23

[经济学] 面向个体异质性的深度学习:一种自动推理 框架 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-4-16 10:03:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
我们使用机器学习来开发估算和推断方法,以丰富经济模型。我们的框架采用一个标准的经济模型,并将参数重铸为完全灵活的非参数函数,以捕捉基于潜在的高维或复杂可观察特征的丰富的异质性。这些“参数函数”保留了经典参数的可解释性、经济意义和规律。深度学习特别适合于经济学中异质性的结构化建模。我们展示了如何设计网络架构来匹配经济模型的结构,提供了将深度学习超越预测的新方法。我们证明了估计参数函数的收敛速度。这些函数是有限维参数的关键输入。我们基于一种新的影响函数计算得到推论,该计算包括任何第二阶段参数和任何使用平滑的每观测损失函数的机器学习丰富的模型。不需要额外的推导。如果需要,可以使用自动微分将分数直接取到数据中。研究者只需定义原始模型并定义感兴趣的参数即可。一个关键的洞察是,我们不必为了在数据上评估影响函数而写下它。我们的框架为许多背景提供了新的结果,涵盖了诸如价格弹性、支付意愿和二元或多项式选择模型中的剩余度量、连续治疗变量的影响、分数结果模型、计数数据、异构生产函数等不同的例子。我们将我们的方法应用于一个大规模的短期贷款广告实验。我们展示了如何做出有经济意义的估计和推论,如果没有我们的结果,这些估计和推论将是不可用的。
---
英文标题:
《Deep Learning for Individual Heterogeneity: An Automatic Inference
  Framework》
---
作者:
Max H. Farrell and Tengyuan Liang and Sanjog Misra
---
最新提交年份:
2021
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Mathematics        数学
二级分类:Statistics Theory        统计理论
分类描述:Applied, computational and theoretical statistics: e.g. statistical inference, regression, time series, multivariate analysis, data analysis, Markov chain Monte Carlo, design of experiments, case studies
应用统计、计算统计和理论统计:例如统计推断、回归、时间序列、多元分析、数据分析、马尔可夫链蒙特卡罗、实验设计、案例研究
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Statistics        统计学
二级分类:Statistics Theory        统计理论
分类描述:stat.TH is an alias for math.ST. Asymptotics, Bayesian Inference, Decision Theory, Estimation, Foundations, Inference, Testing.
Stat.Th是Math.St的别名。渐近,贝叶斯推论,决策理论,估计,基础,推论,检验。
--

---
英文摘要:
  We develop methodology for estimation and inference using machine learning to enrich economic models. Our framework takes a standard economic model and recasts the parameters as fully flexible nonparametric functions, to capture the rich heterogeneity based on potentially high dimensional or complex observable characteristics. These \"parameter functions\" retain the interpretability, economic meaning, and discipline of classical parameters. Deep learning is particularly well-suited to structured modeling of heterogeneity in economics. We show how to design the network architecture to match the structure of the economic model, delivering novel methodology that moves deep learning beyond prediction. We prove convergence rates for the estimated parameter functions. These functions are the key inputs into the finite-dimensional parameter of inferential interest. We obtain inference based on a novel influence function calculation that covers any second-stage parameter and any machine-learning-enriched model that uses a smooth per-observation loss function. No additional derivations are required. The score can be taken directly to data, using automatic differentiation if needed. The researcher need only define the original model and define the parameter of interest. A key insight is that we need not write down the influence function in order to evaluate it on the data. Our framework gives new results for a host of contexts, covering such diverse examples as price elasticities, willingness-to-pay, and surplus measures in binary or multinomial choice models, effects of continuous treatment variables, fractional outcome models, count data, heterogeneous production functions, and more. We apply our methodology to a large scale advertising experiment for short-term loans. We show how economically meaningful estimates and inferences can be made that would be unavailable without our results.
---
PDF下载:
--> English_Paper.pdf (1.2 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:深度学习 异质性 econometrics economically Architecture

沙发
何人来此 在职认证  发表于 2022-4-16 10:03:54
个体异质性的深度学习:一个自动推理框架*Max H.Farrell梁腾远Sanjog MisraUniversity of Chicago,Booth School of Business,2021年7月27日,Abstracteconomic Models。我们的框架采用了一个标准的经济模型,并将参数重铸为完全可操作的非参数函数,以捕捉基于潜在的高维或复杂可观察特征的丰富异质性。这些“参数函数”保留了经典参数的可解释性、经济意义和规律性。与经济学中机器学习的常见实现相反,这些函数不需要预测。经济模型的全球结构,提供了新的方法,使深度学习超越预测。其次,我们证明了估计的参数函数的收敛速度,包括任何第二阶段参数的函数计算和任何使用平滑每次观测损失函数的机器学习丰富模型。不需要额外的推导,分数可以直接取到数据上,如果需要,可以使用自动插值来获得对数据的评价。我们在深度学习之后应用这个方法,但是我们的结果可以用于任何一个有限步长的估计器。作为特殊情况,我们的框架涵盖了众所周知的例子,如平均----不同的例子,如二元或多项式选择模型中的价格弹性、支付意愿和剩余度量,以及特殊情况下连续治疗变量的平均边际和部分e----。我们用一个大规模短期贷款广告实验来说明我们的框架的效用。我们展示了如何做出没有我们的框架就无法获得的有经济意义的估计和推论。关键词:深度学习,在泛函、奈曼正交性、异质性、结构建模、半参数推论中*作者要感谢Chris Hansen和Whitney K.Newey,他们是Chamberlain研讨会和2020 QME会议的与会者和讨论者,作为哥伦比亚大学、NYU、加州大学伯克利分校和加州大学圣塔巴巴拉分校的研讨会与会者,进行了有益的讨论、评论和建议。我们开发了一种深度学习的方法,并为其提供了新的结果。然后,我们通过推导适用于任何此类丰富模型的方差函数来提供第二步推理。起点是一个研究人员指定的模型,该模型将产出与接收到的T,T,θθyt广告的协变量联系起来,其中之一是利率。解决这个问题的一个标准方法是一个(结构化的)logistic二元选择模型,其中参数θ是coe-cients onT,包括拦截。这种模式有许多优点。首先,参数有明确和直接的解释,一般尊重经济理论。第二,有经济意义的例子,虽然利率只在特定的数值上观察到,但我们可以用这个模型来研究在其他水平上会发生什么。事实上,从基本的经济学原理,如利润最大化,我们可以计算出最优利率作为参数的函数,例如*(θ)。所有这些都是可能的,因为强加在分析上的经济结构。估计在实践中可能不可靠,这促使人们推动超越僵化的参数形式或依赖于许多东西。这一事实,加上越来越多的大型、复杂的研究人员可以在以前不可能的细节层次上研究经济现象。模型,及其所有优点。为了做到这一点,我们将模型的参数重新设置为ObservedParacteristicsx的函数,从而将模型丰富为`(Y,T,θ(X))。

藤椅
能者818 在职认证  发表于 2022-4-16 10:04:01
这些“参数函数”允许不可缺少的异构性,但保持了经济模型连接的完整结构。通常,我们既不知道θ(x)的函数形式,也不知道哪些协变量是重要的,这是应用现代机器学习方法的一个强大动机。我们的方法利用了机器学习在经济模型所规定的结构中的可选择性。x=x,θ(x)给出了“类型”x的个体的e-ect,因此保留了回答实质性问题的所有意义,θx结构。例如,在我们的数据中,我们可以计算出个性化的、有针对性的最优利率R*(θ(x)),我们通过丰富经济模型来实现ML的方法因此直接解决了许多预测问题,或者那些可以转化为预测问题的问题。这些预测的t,xθt,x,有用的量将是非常荒谬的,或者是不可能提取出来的。此外,如果没有模型的经济学原理,这样的估计可能没有什么意义。为了实现我们的方法,我们需要对参数函数θ(x)的估计和一个使我们能够提供广泛而有力的结果的推论。对于阶段估计,我们证明了深度异质性。在这种情况下,我们证明了新的收敛速度。对于第二步推论,我们给出了一个新的正交评分,该评分可以广泛而容易地应用。深度神经网络在经验上取得了令人难以置信的成功,匹配或设置了体系结构思想的状态,从而使经济模型的全局结构被简单地烘烤到估计中,实现也很简单,但这似乎被忽视了,而是依赖于经典方法,这些方法无法处理θxxinterestt的复杂异质性。我们的结果建立在Farrell等人最近工作的基础上。(2021),并对非参数M-估计的文献做出了更广泛的贡献(参见Chen(2007)的综述和参考文献)。θxμθxμsemiparametrics,Chie Comey Newey(1994),对于推断,我们遵循Chernozhukov et al.(2018)的方法,将正交评分与样本分裂结合起来。这种半参数推理的一般方法的一个缺点是必须事先知道内函数,这可能阻碍了应用研究人员的接受。大多数应用集中在一些特殊的情况下,推理是导出一个包含任意光滑`y的修正项的单In函数,T,θx可以在一般情况下使用,对于任何满足标准条件的步骤估计器,比如套索,例如平均处理和部分线性模型,但立即为许多其他上下文提供新的结果,包括选型、选择模型、分数结果,以及更广泛的平滑QMLE上下文和其他此类领域。一个关键的见解是,我们只需要在每个数据点上表征in函数并评估其经验模拟,从而获得一个点估计器和标准误差,明确地输出in函数或正交得分,然后插入对得分属性的估计,如e?ciency比较,这种心态的转变允许`情况下,模型的导数已经众所周知,可以使用这些形式,但如果不是,可以在数据上自动评估导数。例如,回想一下,在我们的经验中,诸如最优个性化利率下的预期利率等参数,不能显式地写下来:μ=e[π(r*(θ(X)))]。然而,由于μ是r*(θ)的平滑函数,Andr*(θ)平滑地依赖于θ,它的导数可以在每个数据点上毫不费力地评估,允许模型的结构化。经济学和社会科学希望利用ML,但保持学科特定的知识和可解释性。我们的工作应该是广泛有用的,通过提供一个可处理和有效的估计和推断框架,涵盖许多有趣的背景。

板凳
nandehutu2022 在职认证  发表于 2022-4-16 10:04:07
下一节概述我们的方法框架及其解释,并简要概述了主要结果。我们的结果与最近的许多文献有关,当它们出现时,我们将在上下文中讨论这些问题。第3节显示深度学习在我们的上下文中是一个多么优秀的工具,并给出了理论结果。第4节讨论了半参数推理,我们新颖的确定性函数和渐近正态性。通过讨论一些例子,给出了我们结果的适用性的广度,但在附录中给出了证明。2用机器学习丰富经济模型的方法框架在这一节中,我们描述了我们丰富经济模型的框架,以捕捉个体的异质性,并对我们的结果进行了非正式的总结。该方法的出发点是一个标准的,参数化的中心协变量,或处理,T∈RdT,它可以是连续的,离散的,或混合的。`Y,T,θθ∈RDθ空间θ,由问题的结构决定,研究者然后求解θ∈θe[`(Y,T,θ)],该方法的几个方面是:(i)θ是参数,不是预测,具有经济意义,(ii)e-ects是齐次的。我们将保留(i)而删除(ii)。我们的框架从相同的参数模型开始,但将参数θ重新设置为观察到的个体特征的函数x∈RDX,以考虑异质性。因此,用E[·]代替θ。函数g(x)的Lnorm为kgkL(x)=e[g(x)]1/2。xxdxbθ(x)bθdθ(x)yt`y,t,bθ(x)θx泛型结构模型(2.1)将有θ(x),映射Rdx7→rdθ,我们假定真参数函数θ(·)解θ(·)=arg minθ∈He`y,t,θ(x),(2.1)(形式如下)。因此,我们可以以一种完全方便的方式捕捉异质性,同时保留标准模型的所有结构和可解释性。对于xxθxasθ,但是对于由x确定的“类型”。考虑个别特定的ects也很有用,其中θi\'yi,ti,θimeangful作为原始的同质情况,但当然θ通常不能从θ(xi)中恢复作为θi的近似值,该近似值使用所有可用的信息,从而捕获对未来政策目标有用的异构部分。θxprediction任务和对科学和经济上感兴趣的目标的估计,这与机器学习的典型应用不同。这一实现创新和由此估计的参数函数的收敛速度是本文对深度学习和更广泛地机器学习阶段参数的两个主要贡献。关键结果是我们以足够快的速度估计参数函数,以用于推理,重要的是,该速度仅依赖于连续异构协变量的数量,即ddc≤dX,而不依赖于策略/处理变量的维数。即对于由(2.1)得到的θ(x)的估计bθ,定理1建立了bθk-θ0k l(x)=O(n-pp+dclog(n)),k=1,。.,dθ,前提是`是su和ciently光滑和弯曲的接近真值。这一结果依赖于我们新的体系结构体系结构,因此损耗的优化目标是参数函数,而不是预测。这一思想如图1所示。θXμ∈rdμh{rdx×rdθ}7→rdμ,我们根据研究人员的选择,对μ=EhH(X,θ(X);t^)i,(2.2)进行推断,其中*是某一特定值。许多经济上有意义的统计量都采用这种形式,在任何这样的μ的函数中,它包括导出任何ML-浓缩估计问题的校正因子。规则性条件在以下;特别是,我们假设μ是可通过的。

报纸
能者818 在职认证  发表于 2022-4-16 10:04:14
除此之外,μ的形式可以以不注明为代价加以推广。对第二阶段推断的主要理论贡献是In ference函数计算,产生Neyman正交分数,这是一个足以直接实现的规定,同时也是一个足够普遍的规定,足以涵盖任何基于平滑的每观测损失(自动的或数值的)的丰富的结构模型,以及对观测数据进行函数评价而不是把它们写下来的概念点。定理2在第4节中给出了任何(su-ciently)这样的θxhθx,θxt*`θy,t,θxhand`关于θ的Neyman正交分数,并表示λ(x)=e[`θθ(y,t,θ(x))x=x]`的Hessian的条件期望,所有这些都在θ=θ(x)处求出。则Neyman正交得分为φ(y,t,x,θ,λ)-yen,其中φ(y,t,x,θ,λ)=H(x,θ(x);t*)-Hθ(x,θ(x);t*)λ(x)-1`θ(w,θ(x))。对于许多标准模型,这些导数是已知的。如果没有,则可以用自动插值工具或其他计算方法得到。在其他\'y,t,θhfunctions,即使没有封闭形式,如我们的最优利率和相应的程序的例子。请记住参数情况。如果θ是常数,那么两步估计的经典结果,如Newey和McFadden(1994,Section 6)中的结果,将在第二阶段得到第一阶段的E_ect,并给出一个看起来相同的函数,但以Hθ和λ为常数,而不是半参数推论。有了这个正交分数,我们可以得到一个点估计值bμ和标准误差sbsuchthatbdN(μ,b/N),从而允许对向量μ的任何方面进行推论。例如,IFDμ=1,所以感兴趣的参数是一个标量,即Bμ-1.96 QB/n、Bμ+1.96 QB/n BθBx需要进行样本拆分。然而,一个重要的方法点是,随机化的这个矩阵通常可以计算,而不是估计。一般情况下,两步半参数稳定和鲁棒估计的结果比较。我们的框架的一个特例是:当yis是一个标量,(2.1)是围绕条件简项建立的,并且假定对于已知函数G(u),u∈R,e[yx=X,T=T]=Gθ(X)T.这一特例对于说明主要思想以及prevalentin的经验和理论工作是有用的。(2.3)X(2.3)(2.1)gtake是非线性最小二乘或似然,它具有二阶条件,这将改变后面给出的函数,从而影响实现。O\'Hagan(2.3)Coe-cient“模型(Chen and Tsay,1993),或”光滑Coe-cient“模型(Li et al.,2002),并归入Stone et al中的”扩展线性模型“类别。(1997)。我们的结果直接说明了这一点,即可以将随机COE模型视为一种替代的参数模型。因此,我们推测我们的框架也可以适应这些设置。我们把这个问题留给以后的研究。文献和加性模型,其中[Y x=x]=g(θ(x)+θ(x)),对于不重叠的子集x,xof x,我们将得到θ(x)和θ(x)的速率。方程(2.3)的形式表明,我们的方法是丰富产出和政策变量之间的参数关系,而不是限制完全非参数的(预测)gθxteytgθteyxx,ttθx,twould是更典型的ml,这种区别在实践和理论上都很重要。同样,将二进制choiceavailable视为COE+Cient函数。将此与非结构化预测相比较:恢复Xx,ttθ(x,t),然后得到关于率变量(t的一个元素)的导数,即e[θ(x,t)/rx=x]。这是可能的,但很麻烦,对平均数的推断可能无法衡量弹性或最佳价格。

地板
可人4 在职认证  发表于 2022-4-16 10:04:20
3参数函数的结构化深度学习我们现在详细讨论了参数函数θ(x)的深度神经网络(DNN)估计,并陈述了我们在这一阶段的理论结果。DNN具有独特的组合能力,这使得它们成为机器学习方法中恢复个体异质性的一个极好的选择。深度学习最明显的论据是DNN取得了令人难以置信的成功,它已经被发现非常好地处理了许多di withed erent任务和数据类型。在许多应用中,XIS的维数足够大,异构性足够复杂,经典方法难以处理,Farrell等人。(2021)最近的文献和进一步的介绍。参数函数θ(x)。为此,我们设计了一个新的体系结构,如图1所示,用于测量θxθx全连接前馈网络(多层感知器,MLP)和整流线性单元(ReLU)激活函数。θxx最终进行预测,如公式(2.3)所示,方差或协方差,或其他参数fdnnkθkk∞bθ经验模拟(2.1),bθ=arg minθ∈FDnnnnxi=1`(yi,ti,θ(xi))。(3.1)DNNs不是唯一可能使用的方法,我们也没有声称任何形式上的最优性,我们能够容易和透明地使我们的估计器反映模型的全局结构,使机器学习忠实于经济学,而不是允许相反的情况。尽管有可能嵌入“本地”方法,如基于内核(Fan and Zhang,2008)或基于树(Zeileis et al.,2008;Athey et al.,2019;Chatla and Shmueli,2020)的估计器,但使用DNNs进行估计是简单、透明和易于处理的,而且由于经济模型在全球适用,我们可能希望在估计中与此匹配。第二,像基于树的方法一样,DNN自动处理离散协变量,全局平滑器和局部平滑器之间的区别不是普遍的或精确的。在这里,我们用“全球”来表示(Cattaneo and Farrell,2013年;Cattaneo et al.,2020b)。包括完全友好的交互。在实践中或理论上,我们不需要限制对Xdiscrete变量的关注(在标准假设下),但在实践中实现这些收益可以是建立在基展开或核近似基础上的di-the cult。DNN不需要自定义:输入结构,我们证明只有连续元素的维数X,异质性a决定了我们的DNN估计的收敛速度,而离散协变量不影响收敛速度。处理离散协变量是经典筛选方法或搜索函数形式和相互作用的方法的一个主要优势。然而,这些方法在我们的意义上是结构相容的,我们的结果直接贡献了非参数理论的大量工作。除了早期的工作之外,我们明确主张丰富一个标准的结构体系(yi,ti,xi,μ,θ(·)),它允许我们提供具体的、完全可实现的结果。最后,值得一提的是,最近的其他工作考虑了deepfocus的结合,使用深度学习来估计个体水平的异质性,这在以前的工作中是非常不可靠的,而且是不可用的。巴比等人。(2020)将经济学与以预测为中心的机器相结合这是将经济学与机器学习相结合的另一个有趣的途径。3.1结构化深度神经网络θx的收敛性将给出一个一般的结果,这必然要求较高的条件,进而说明筛M估计的更多传统。我们的假设和结果使人联想到。`Y,t,θX(Y,X,t)和θ(X)。对于损失函数,我们一般要求Lipschitz连续性,并且接近于事实,要求su.cient曲率。

7
可人4 在职认证  发表于 2022-4-16 10:04:27
两者都不是限制性的,在非参数Mestimation文献中都很常见(cf Chen(2007)和其他人,其中讨论了其他规范的进一步引用和使用)。这些条件是估计θ(x)的条件;假设1.θx(2.1)和存在有界和离零有界的常数sc、c、c`,使得`(y,t,θ(x))-`(y,t,~θ(x)≤c`kθ(x)-~θ(x)k,ce[kθ(x)-θ(x)k≤e[`(y,t,θ(x))]-e[`(y,t,θ(x))]≤ce[kθ(x)-θ(x)k.已知在许多情况下都成立。排除了一些潜在的有趣的情况,如等。(2020)应用Farrell等人的方法。(2021)到分位数回归。wy,T,Xwi(yi,ti,xi)。LetXCdenote连续分布的元素x和defunnedc=dim(XC),networks Yarotsky(2017,2018);Hanin(2017).假设2.(i)有界随机变量的元素。(ii)XChas紧连接-,DCXCXθ0KX∈Wp,∞-,dCk,。.dθpqh"older球Wp,∞([-1,1]q)函数h:rq→R具有光滑性p∈n+aswp,∞([-1,1]q):=(h:maxr,R≤pess supv∈[-1,1]qdrh(v)≤1),其中R=(R,...,rq),R=R+。+Rq,Drh是弱导数。我们现在得到了以下结果,在附录中得到了证明。在这里,我们关注平滑功能,以获得更快的速率或覆盖宽度、非常深的网络(Farrell et al.,2021年,第2.3节)。定理1.Wii,。..,nbθ解(3.1),用fdnn按图1结构,宽度n(dC)/2(p+dC)lognanddepth L log n,它保持kbθk-θ0kkl(X)≤C·n-pp+dclogn+log log nn和bθk-θ0k≤C·n-pp+dclogn+log log nn足够大,概率为1-exp{n-dcp+dclogn},fork=1,。..,dθ,其中constantCmay依赖于维数W、dθ和假设1和2中的其他规定量。深网具有其他方法的相同性质,但具有上面讨论的优点。理论上的缺点是对于给定的光滑度水平,这个速率不是最优的。它使深度学习从预测转向学习经济上有意义的参数。XXDθ(x)θ(x)TGGθ(x)+θ(x)T参数θx一般结构模型(2.3)参数案例可以帮助解释所需的条件。例如,我们的条件是众所周知的QMLE问题中所要求的条件的类似物,这些直觉可以直接移植。为了说明,回到回归型模型(2.3),其中模型Ise[yx=x,t=tgθxt,这也说明了我们的结果如何立即应用于广义加性模型,其中θx适当的链接,以便独立的网络馈入参数层节点。对于这个模型,我们也可以用熟悉的原始假设来说明高层条件的验证。假设3.(i)条件期望(θ(x)t)通过已知的重估变换(·)进入损失,其中(i)gandGare连续可逆和G/kgk∞和G/kgk∞wp,∞,p≥Y,t,θx`Y,g,其中的条件适用于标量论证g。(iii)在X中E[T,T,x=x]的特征值是一致有界和一致有界的。条件(i)保证损失函数是光滑的,(ii)和(iii)通过标准的正方差条件保证损失函数是光滑的。这些条件在参数情况下是熟悉的。例如,考虑原始模型[Y t=t]=g(θt)中的条件(iii)。如第6节所述,在EY Xx、TTGθXTPertention E-CENTS和部分线性模型中也需要这些假设的版本。这些假设是在这种情况下对斜率和截距函数的定义。估计,如第6节所述的几种情况。将定理1具体化到这种情况,我们得到以下结果。推论1。设定理1和假设3的条件成立。然后对于一个DNN结构为kbθk-θ0kkl(X)on-pp+dclognk,。...

8
kedemingshi 在职认证  发表于 2022-4-16 10:04:34
Dθkgbθxt-g(θ(x)t)kL(x)=O(n-pp+dclog(n))。这是必需的,因为经济结构依赖于这些参数,而不是作为一个整体的条件期望E[Y,x,t].Ey,x,t(2.3)。从统计学的角度来看,这一结果证实了结构化DNN在不同的COE模型、加法模型和其他类似情况下具有优异的性能,因此可能具有独立的意义。这对于比较x,TXDT之后更典型的推论用法也是有用的。即使推断依赖于条件期望,或者参数函数couldrate,也依赖于ondx+dt-1(包括一个截距)。这对于随后的推断来说往往太慢了。例如,在我们的经验说明中,这将需要22维非参数,即使对于深度学习来说,这也可能是高得令人望而却步的,如果目标是恢复“线性”影响的度量,如治疗e-ect、边际e-ect或其他平均导数,这是一个不必要的复杂。速率只取决于直觉上确切地应该发生什么:异质性是模型可操作的地方。在我们的案例中,这一结果是由于我们的结构化架构,一些特定类型的DNN实际上可能适应这样的结构(Bach,2017;Bauer和Kohler,2019;θx第二,经验表明,当结构存在时,强加模型的结构(2.1)可以提高估计质量,以允许适应性。和Rocková(2018)、Wang和Rocková(2020)、Liang和Tran-Bach(2020),以及其中的参考文献和Farrell等人。(2021年)。我们没有解决的一个重要方面是正则化,通过范数惩罚、权值衰减、下降或其他方法来实现网络参数本身。在我们的应用中,我们在不使用显式正则化的情况下获得了出色的性能,尽管在低信噪比情况下,将显式正则化添加到隐式正则化可能会产生Det Al.,2020)。正则化的作用,它的实现,以及它对估计和随后的推理的结果,是深度学习的主要开放问题。4在泛函和半参数推理中,θxt*(2.2)μ(2.1)框架同时具有足够的一般性,足以涵盖大量的设置,但又规定了θ(x)和第二个非参数对象,但后者也具有充分的特征,与Chernozhukov等人相同。(2018)立即获得渐近正态性。这在4.1下面的4.2节中有详细说明。获得有效的半参数推断不需要将估计框架建立在第一阶段估计的条件上,即基于井bθ如何恢复θ。这些较弱的条件是学习。换句话说,为了电子商务的考虑或其他比较,将In freence函数视为获得可行推理的工具是有用的,而不是直接感兴趣的本身。法雷尔,2015年;Chernozhukov et al.,2018)但是,为了更好地理解数据,将其明确化是值得的,因此根本不需要导出数据(Chernozhukov et al.,2020c,b,a,d,2021)。我们关注可解释的参数函数而不是回归函数将我们的设置与这一工作线区分开来,这体现在两个主要方面:(i)我们的firegrst阶段更一般,因为我们在firegrst阶段,但我们要求θ通过计算进入atX,排除了跨数据点的积分等例子。

9
可人4 在职认证  发表于 2022-4-16 10:04:41
我们遵从这项工作,Ichimura和Newey(2015)获得更多背景,包括在定义函数中常用的是,对于平均处理,e chond ects,我们出于e cience考虑的目的,将其恢复为一个特殊的精确定义(Hahn,1998,2004),后来用于展示某些插件估计器可以是e chent(Hirano et al.,2003;Imbens et al.,2007),并且仅在变量选择之后(Belloni et al.,2014)。在这两种情况下,直接推导出in函数,然后估计其组成部分。对于许多参数,这种练习已经在许多模型中重复了(见第6节,以及Ichimura and Newey(2015)或Chernozhukov et al中的列表)。(2020a))。在某种意义上,我们遵循这条道路:切尔诺朱科夫等人的食谱。(2018年)。我们扩展了这些思想的应用,并展示了他们的函数是如何从文献中嵌套许多案例并提供新的结果的。我们的最终结果将重新构建我们框架背后的核心思想:通过异构性丰富标准模型,这些步骤参数本身的内在函数可以用来调整这些步骤(Newey and McFadden,1994,Section 6)。我们的结果是非参数推广假设是透明和熟悉的,并通过指导实施。设θ(w,θ(x))为导数的dθ-向量,θ(y,t,θ(x))=`y,t,b→b=θ(x),(4.1)和θθ(y,t,θ(x))为二阶导数的θ×dθ矩阵,即{k,k}元素由h`θθ(y,t,θ(x))ik,k=`(y,t,b)bk b=θ(x),(4.2)给出,其中bkandbk是该位置的相应元素。在这些上下文中使用标准的定义,在以前的一些工作中已经使用过。解释,这将需要某种形式的不混杂性或条件外生性(如不例6.1或6.3)。假设4.以下条件对w=(Y,X,T)的分布成立,在给定的条件元素中是均匀的。(i)方程(2.1)成立,等价θ(x),其中`(w,θ)为θe`θ(Y,t,θ(x))Xx,Tt`θθ(4.2)λxe`θθ(Y,t,θ(x))Xx方程(2.2)的参数μ在θ中是等价的,且在路径上是可连续三次可加的。(v)H(x,θ(x);t·)和`θ(y,t,θ(x))具有q>4的绝对矩和正方差,(2.1)μ是路径可测的。后者专注于半参数上下文。为了直观起见,考虑条件均值限制(2.3),其中简单的su_cient`θw,θxtgθxt-yλ(x)=e[gt T x=x],对其标量参数的导数,求取θxt^gdg/duu=θ(x)TGPY Xx,ttxt函数θ,如有界性)。或者,在处理E例的上下文中,我们需要半参数问题中的标准λxquite标准。我们现在可以陈述我们在附录B中导出的函数结果。定理2。让假设4成立。回想一下θin(4.1)和λ(x)=e[`θθ(y,t,θ(x))x=x]对于θθof(4.2)的定义。将hθ(x,θ(x);t*)定义为h相对于θ的μ×Dθ雅可比,即具有{h,k}元素的矩阵,当h=1,..,dμ,k=1,..dθ,给定hhθ(x,θ(x);t*)ih,k=hh(x,b;t*)bk b=θ(x),hhthehtheelement ofHandbkthekthelement ofb。则对于方程(2.2)的μ,有效Neyman正交分数为ψ(w,θ,λ)-μ,其中,ψ(w,θ,λ)=H(x,θ(x);t*)-Hθ(x,θ(x);t*)λ(x)-1`θ(y,t,θ(x))。(4.3)在这个概括性水平上,这个证明函数对文献来说是新的,并为ML之后的推理产生了许多新的语境。在某些特殊情况下,特别是在g(u)=u的(2.3)条件下,如平均处理E-ects(Section 6.1),部分线性模型(Sectionregorization on the squared loss,Newey(1994)给出了广义修正因子(2.2)的形式,在我们给出的许多具体情况下,如choice模型或线性IV模型中,我们恢复了已有的结果,特别是在g(u)=u的(2.3)条件下,如平均处理E-ects(Section 6.1),部分线性模型(Sectionregorization In the squared loss,Newey(1994)。

10
大多数88 在职认证  发表于 2022-4-16 10:04:47
校正项依赖于三个导数,hθ,θ和θθ,在进行估计之前,可以计算这些导数。校正项的形式,特别是λ(x)-1θ(y,t,θ(x)),值得进一步讨论。在这种形式背后,我们再次从一个模型开始,并将其参数丰富为函数。这意味着路径导数计算背后的参数子模型简单地跟踪原始参数结构模型的空间,该模型被很好地理解和表现。事实上,该模型以一种已知的方式将Y和T与参数丰富联系起来,当一个应用中有几个参数时,这是很有帮助的。从最真实的意义上说,函数λ(x)是一个麻烦:它是必需的,只是因为我们在参数推理问题中使用。λ(x)矩阵从来不是高维的,这也是由于我们的方法(参见注释1)。λ(x)的估计或计算在许多情况下会简化,特别是如果人们事先知道只有异质性协变量的某个子集(例如,mox)是相关的。一个极端的情况是随机化(下面的备注4)。另一个例子是市场或消费者的特征。我们的In freence函数的一个吸引人的方面是我们没有损失ontox的非参数(条件)λx导数。同样,我们可以为直觉而使用处理E----我们准确地知道需要什么非参数回归对象,即倾向得分,并且我们必须根据实际编码的bθx项来估计它。我们在第4.2节中更详细地讨论估计,在第5节中讨论实现。λxproblems,如果是随机的,则不需要估计,并且λ(x)可以直接计算(显著结果允许使用in ference函数进行估计,而不知道它的精确形式,这不是,因此更有吸引力的是不基于经济学的正则化。在实践中,对λ进行修剪或其他正则化,例如使用(λ(x)+idθ)-1,可能是有帮助的。注1.θx与一种看似相似的推论方法形成对比,这种方法也引发了参数两步模型。这里,阶段参数是非参数估计器本身的参数。例如,IFBθ(x)werea级数估计器,参数将是基函数上的COE(cients)。在套索的情况下,参数与高维变量相匹配。然后,人们可以把这看作一个(大的)两步参数问题来获得有效的推论,就像在Ackerberg等人中那样。(2012年)。将这一思想应用于深度学习在某些方面是诱人的,因为发现DNNs是最大似然,这是由于现代ML方法的高维性。例如,λ(x)的等价性实际上是不可能的,理论上可能是无效的,而且,根据我们的结果,它是不必要的。第6节讨论的评论2.(2.3)。当originalvan de Geer(1997)。注释3.在firerstage中学习参数函数θ后,需要正交性来保证有效性。最近考虑的另一种方法是利用估计阶段的正交性`(wi,μ,θ)高维稀疏模型,与使用基于in函数的估计器获得的“一致性”类型的鲁棒性相比较。内基佩洛夫等人。(2020)考虑了一个类似(2.3)的模型,但具有高维稀疏线性模型,因此θ(x)t=(θx)t,其中向量θ的许多条目大于异构相互作用的条目“,他们开发了一个损失函数来估计该向量θ,该函数自动与其他干扰参数的估计正交。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 06:26