楼主: 何人来此
1889 23

[经济学] 面向个体异质性的深度学习:一种自动推理 框架 [推广有奖]

21
何人来此 在职认证  发表于 2022-4-16 10:06:06
(1998):《渐近统计学》,剑桥大学出版社。(引自第59页。)(引自第17页。)魏Y,姜子(2019):“用神经网络估计结构模型的参数”,SSRN 3496098。(引自第12页。)Wooldridge,J.M.(2004):“在条件矩独立假设下估计平均部分E----ECTS”,cemmap工作文件CWP03/04。(引自第39页)----(2010):《横截面和面板数据的计量经济分析》,剑桥:麻省理工学院出版社,第2版。(引自第42页。)网络,94,103-114。(第13页和第58页引用。)--(2018):《非常深的ReLU网络对连续函数的最优逼近》,arXivpreprint arxiv:1802.03620。(引用于第13页)Zeileis,A.,T.Hothorn,和K.Hornik(2008):“基于模型的递归分区”,计算与图形统计杂志,第17,492-514页。(引用于第11页和第37页。)深度学习的证明我们现在证明了深度学习的正文中陈述的结果。首先证明了θ(x)是等价的,然后证明了这些函数的收敛速度。最后讨论了λ(x)的估计。A.1定理1Farrell等人的证明方法。这里用的是(2021年)。关于Mmaxk≤dθkθ0kk∞<mfdnn以2m为界。取θn∈FDNNas为DNNs类中θ的最佳逼近,并设N表示逼近的误差:θn=arg minθ∈FDNNKθk∞≤2mkθ-θk∞,n=kθn-θk∞。在假设2下,这个误差由MLP的宽度和深度控制,通过假设1和假设bθ在FDnn上优化了cehkbθ(X)-θ(X)ki≤e[`(Y,Y),T,bθ(X))]-e[`(Y,T,θ(X))]≤E[`(Y,T,bθ(X))]-E[`(Y,T,θ(X))]-En[`(Y,T,bθ(X))]+En[`(Y,T,bθ(X))-`(Y,T,θn(X)))=(e-en)h`(Y,T,θn(X))-`(Y,T,θn(X)))i+En[`(Y,T,θn(X))-`(Y,T,θn(X))].概率1-e-γcehkbθ(X)-θ(X)Ki≤(e-en)h`(Y,T,bθ(X))-`(Y,T,γn+7c`mγn。(a.1)rekbθx-θxk1/2≤rfdnnfdnnθ∈fdnnekθx-θxk1/2≤rg={g=`(y,t,θ(x))-`(y,t,θ(x)):θ∈FDNN},我们认为,在概率至少为1-e-γ的情况下,(a.1)的经验过程项有界为(e-en)h`(y,t,bθ(x))-`(y,t,θ(x))i≤6Eηrng+s2c`rγn+23·3mc`γn,(a.2),其中ng=supg∈gnnxi=1ηig(wi)=supθdnnnnxi=1ηi(`(y,t,θ(x))-`(y,t,θ(x))).Rademacher变量ηi。法瑞尔等人的A.2.2节中给出的论点。(2021)不直接应用于toeηrng,因为θ是向量值。相反,我们用第二个不等式代替其中的引理2,因为我们所用的DNNSFDnnn类对每个坐标都是可分解的,因此我们可以一次约束一个坐标。然后我们应用a.2节。我们用第二个不等式代替第二个不等式,因为我们所用的DNNSFDnn类对每个坐标都是可分解的,所以我们可以用第二个不等式代替第二个不等式来代替第二个不等式。我们用第二个不等式代替第二个不等式。1和Farrell等人的引理3、4。(2021)对每个分量函数θk,k=1的项。.....Dθ,当r≥1/n且n≥(2em)时,eηsupθk∈FDNN,kNnxi=1ηikθk(xi)-θ0k(xi)≤32rspdim(FDNN,k)n log 2 emr+log n,-exp-γpdimff,eηsupθ∈FDnnnnxi=1ηi(`(y),对于依赖于c′和dθ的常数K,t,θ(x))-`(y,t,θ(x)))≤KrrPdim(FDNN)nlog n,最后一个界与(a.2)结合,我们得到cehkbθ(x)-θ(x)ki≤6KrrPdim(FDNN)nlog n+s2c`rγn+23·3mc`γn+ns2c`γn+7c`mγn≤r6krpdim(FDNN)nlog对于constantsKandK的log(W)nlogn+s2c`γn+cn+ns2c`γn+Kγn,(a.3),其中不等式应用了Bartlett等人的定理6。(2017)根据ReLU网络的深度L和总参数W(a.3)ekbθx-θxk1/2≤r,只改变常数来捕捉依赖于θ的关系。

22
大多数88 在职认证  发表于 2022-4-16 10:06:12
按照这些步骤,我们精确地得到了在概率为1-e-γ的情况下,EHKBθ(X)-θ(X)Ki≤C W L log(W)nlogn+log logn+γn+n,EHKBθ(X)-θ(X)Ki≤C W L log(W)nlogn+log logn+γn+n,(a.4)Ccn假设1以及维数,这个结果告诉我们,对于每个θ0k,对于H,L和逼近误差n,下列条件成立:H=H(n)≤W(n)L(n)≤c-dcβn(log(1/n)+1),L=L(n)≤C·(log(1/n)+1)。因此,一个网络的宽度是Dθ倍的,可以得到对θ的相同逼近。重要的是,这里只有一个问题。要了解原因,supposexdXis二进制。然后,对于两个光滑的dx-1维函数θ0 k,1和θ0 k,0,它认为θ0 k(x)=xdXθ0 k,1(x,...,xdx-1)+(1-xdX)θ0 k,0(x,...,xdx-1).xdX?θk,n(x)=xdX?θ0 k,1(x,..,xdx-1)+(1-xdX)θ0 k,0(x,..,xdx-1)。直观地说,这如图2所示,其中xdxin在参数层中经常放置两个函数θ0k,1和θ0k,0(然后给出dxn=n-β2(β+d),即H nd2(β+d)logn,L logn,我们得到了结论。在可逆期望和条件期望的情况下,数量g-1(E[Y x=x,t=t])总是被定义的。假定θ(x)不是等价的。则存在θ(x)和θ(x),如g-1(E[Y x=x,T=T])=θ(x)T=θ(x)ta.e。或者等于θ*(x)=θ(x)-θ(x),θ*(x)t=0。但θ*(x)t=0A.E。Huang和Shen(2004)等人给出了0=ehθ*(x)t-xi=θ*(x)e[~t~tx]θ*(x),θ*x。在假定3的条件下,从定理1得到了估计界。E[T T X]是(一致)正屈服性,T bθ(X)t-θ(X)T=ex bθ(X)-θ(X)e[T T X]bθ(X)-θ(X)≥cex bθ(X)-θ(X)bθ(X)-θ(X)这一事实验证了损失函数的曲率条件。连续性条件成立,因为损失是光滑的,线性指数可以从mg(G(θ(x)t))中恢复。网络的结构保证了网络和损失的光滑性意味着逼近和界立即应用于函数(G(θ(x)t)),这些函数的光滑性意味着线性指数θ(x)t可以恢复。B定理2的证明这里我们导出了μ.回想一下,我们的目的是导出一个作为估计和推理基础的函数,特别是得到Newey(1994)详细描述的Neyman正交分数,路径导数方法。η非参数对象由η索引,因此我们将θ(x;η)和μ(η)分别定义为θ(·;η)=arg minbz`(w,b(x))fw(w;η)dw(b.1)和μ(η)=zh(x,θ(x;η);t*)fx(x;η)dx,(b.2),其中,fx分别是w=(y,t,x)和x的分布。在η=0处得到了真实的数据生成过程。当计算η=0时,我们通常会忽略对η的依赖关系,例如fx(x;η)=fx(x),θ(x;0)=θ(x)或E[·]关于真分布的期望。路径导数方法,如Newey(1994)和其他人的那样,通过构造函数θ(w),使得μ(η)ηη=0=E[θ(w)S(w)],B.3)对于(真)得分S(w)=S(w;η)η=0。(B.2)ηη=0。乘积法则和链式法则的产率:μ(η)η=0=ηzh(x,θ(x;η);t*)fx(x;η)dxη=0=zh(x,θ(x;0);t*)η=0fx(x;0)dx,=zh(x,θ(x);t*)fx(x;η)η=0dx+zhθ(x,θ(x);t*)η=0dx+zhθ(x,θ(x);t*)η=0dx+zhθ(x,θ(x);t*)θ(x)fx(x);t*)θ(x)fx(x);t*)θ(x)fx(x)dx,(b.4)θηxθηxdθθxηηη,给出θη(x;0)=θ(x;η)ηη=0,hθx,θxt±dμ×Dθhθη为{h,k}元素的矩阵,对于h=1,。.,dμ,k=1,..dθ,给定hhθ(x,θ(x;0);t*)ih,k=hh(x,b;t*)bk b=θ(x;0),hhthehtheelement ofHandbkthekelement ofb。为了直观起见,请注意elementh=1。...,dθ-向量hθ(x,θ(x);t*)θη(x)的dμ是hhηη=0=dθxk=1hh(x,b;t*)bk b=θ(x;0)θk(x;η)ηη=0。我们将表明,上述方程(b.4)的两项都可以写成满分(y,x,t)的产品的期望,正如(b.3)所要求的那样。

23
大多数88 在职认证  发表于 2022-4-16 10:06:19
我们经常使用标准事实,即scoresare意味着零,并且that(y,x,t)=S(y,tx)+S(x)。(b.5)方程(b.4)的项为zh(x,θ(x);外汇(x);η)η=0dx=E[H(X,θ(X);T^)S(X)]=E[H(X,θ(X);T^)S(Y,X,T)],(b.6)其中等式成立,因为边际得分Obeys(X)fx(X)=fx(X;η)/ηη=0,第二个等式来自分数的通常均值零性质和(b.5):E[h(X,θ(X),T*)S(Y,tx)]=EhH(X,θ(X),T*)E[S(Y,tx)X]i=0。这个项是In函数的标准“插件”部分,即如果θ(X)已知(或如果bβ(X)已知)会出现的项。方程(b.4)的第二项将产生用于非参数估计的修正因子,为了修正这个修正因子,我们必须修正θη(x)=θ(x;η)/ηη=0。这是推导过程中的关键一步,并且非常重要地利用了模型的结构以及仅通过单点求值和仅通过x而依赖于θ(·)的事实。我们将用这些事实来推导θ(x;η)/η的表达式,它涉及适当的分数,然后可以代入(b.4)来得到所需的形式。也就是说,作为η中的一个恒等式,Eη[`θ(W,θ(X;η))X=X]0,(b.7)其中`θ是`相对于θ的dθ-向量梯度,由`θ(W,θ(X;η))=`(W,b)b b=θ(X;η)给出。在子模型中,期望也由η索引,因为密度依赖于η。明确地说,作为η中的恒等式,我们有z`(w,b)b b=θ(x;η)fy,tx(y,t;ηx)dydt0。`θθw,θxηdθ×dθ`(w,b)b在b=θ(x;η)处求值。即`θθ(w,θ(x;η))有{k,k}个元素,由h`θθ(w,θ(x;η))ik,k=`(w,b)bk bk b=θ(x;η),bkbkbb关于η的恒等式,应用链式规则我们得到z`(w,b(x))bb=θ(x;η)fy,tx(y,t;ηx)ηdydt+z`θθ(w,θ(x;η)θη(x;η)fy,tx(y,t;ηx)dydt=0,其中第二项捕获了θ(w,θ(x;η))关于η的导数,且查全率,θη(x;η)是θ关于η的dθ-向量梯度,是关键成分。在η=0下求出这个结果,我们obtainE[`θ(w,θ(x))S(Y,tx)x]+E[`θθ(w,θ(x))θη(x)x]=0,(b.8)SY,txsy,txfy,txy,txy,txx,txy;ηx)/ηη=0。重排(b.8),并利用θ只是X的函数,吉维斯[`θθ(w,θ(X))X]θη(X)=-E[`θ(w,θ(X))S(Y,tx)X]。然后,由于λ(X):=E[`θθ(w,θ(X))X=X]是可逆的,我们有θη(X)=-E[θθ(w,θ(X))S(Y,tx)X]-1E[θ(w,θ(X))S(Y,tx)X]=-E[θ(X)-1θ(w,θ(X))S(Y,tx)X。将此代入方程(b.4)的第二项,并应用迭代法在期望下,我们有θ(X,θ(X);tπ)θη(x)fx(x)dx=-ehhθ(x,θ(x);Tó)eutóλ(X)-1`θ(W,θ(X))S(Y,tx)X i=-ehe-hθ(X,θ(X);T:/)λ(X)-1`θ(W,θ(X))S(Y,T X)X i=-ehhθ(X,θ(X);接下来,由于第一阶条件在条件上成立,所以Ehhθ(X,θ(X))-1`θ(W,θ(X))S(Y,T X)i;T:/)λ(X)-1`θ(W,θ(X))S(X)i=ehhθ(X,θ(X);t://)λ(X)-1e[`θ(W,θ(X))X]S(X)i.(b.5)(b.4)是必需的形式:-ehhθ(X,θ(X);结合方程(b.6)和(b.9)与(b.4)的关系,我们得出:μ(η)ηη=0=E[H(X,θ(X);Tπ)S(Y,X,T)]-ehhθ(X,θ(X);Tπ)λ(X)-1`θ(W,θ(X))S(Y,T,X)i.(b.10)这样我们就得到了方程(b.3)的正确性,其中,θ(W)=H(X,θ(X);t:/)-Hθ(x,θ(x);T:/)λ(x)-1`θ(w,θ(x))。(b.11)这不是一个不确定的函数,因为它缺乏适当的定心,而是coursee[μs(W)]=μe[s(W)]=0,因此我们可以自由地将该φ(t)定心,并且仍然服从(b.3)。定理3的证明:其中的渐近正态性3.1和3.2。假设3.1(a)对于定理2中给出的ψ-来说是成立的:φ的第一个termof的平均值为φ(2.2),而第二个termof的平均值(有条件地)为零,如假设4中所假设的,且λ(x)-1一致有界。假设3.1(b),即线性,通过承认(2.2),而λxj,其中是恒等式。假设3.2,(b)和(d)部分直接从施加条件的时刻得出。

24
大多数88 在职认证  发表于 2022-4-16 10:06:19
假设5的阶段估计的条件收敛性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 08:09