楼主: 何人来此
1894 23

[经济学] 面向个体异质性的深度学习:一种自动推理 框架 [推广有奖]

11
可人4 在职认证  发表于 2022-4-16 10:04:54
类似地,在二元处理的异构e-ects上下文中,(2.3),在线性链接和二元关系下)开发了θ(x)=e[Y x=x,t=1]-e[Y x=x,t=0]的估计过程,如果函数θ(x)的结构比θ(x)=e[Y x=x,t=0]更简单,则可以获得更好的速率。这些方法的共同点是异构在某种程度上比问题的其余部分“简单”,这与我们捕捉丰富的个体异构的目标相反。(2.3)将在第6节的几个例子中和下面的两个注释中使用这种形式。推论2.假设模型(2.3),并且损失是`θ(w,θ(x))=t(G(θ(x)t)-y)λxe^gt txx^gdG/duu=θ(x)Tof定理2,那里的结果是存在的,θ(w,θ,λ)=H(x,θ(x);t^)+Hθ(x,θ(x);t^)e[gt tx=x]-1t(y-g(θ(x)t))。(4.4)λxt这是从线性模型(其中条件方差是关键对象)和从广义线性模型和QMLE的其他应用(第6.1,6.2,6.3节)中直观得来的。在应用中足够值得在这里说明。备注4(随机处理)。Iftis随机分配,或更一般地说是独立的xλx`θθytθxbθxiλ(xi)可以计算,不需要估计,尽管它仍然是一个一般的函数,而不是简单的常数。在(4.4)的情况下,λ(x)=r^g(θ(x)t)ttdFT(t)。如果分布,FTTθxg(u)=u,则不需要这些)。这激发了非线性模型的三向样本分裂,其中相关的分布是已知的,并且依赖于一个非常简单的协变量子集。注释5.μ(2.3)EY x=x,t=t]=g(θ(x)+θ(x)·t)。然后我们就可以手动反演λ(x)了。当(标量)函数ψw,θ,λλkxeàgtkxx,k{,,}πhx hx,θxtπ/θπhx hx,θxtπ/θ时,定理2成立,函数保持不变。(4.5)。(w,θ,λ)=H(x,θ(x);t^)+πH(x)(λ(x)-λ(x)t-λ(x))λ(x)λ(x)y-g(θ(x)t)。同样,这个结果可以用来与其他情况和DEASE的实现进行比较。4.2渐近正态定理有了定理2的正交分数,我们现在转到μ的点估计和推论。我们将应用Chernozhukov等人的方法和结果。(2018)因此,我们保留了berrorsb,我们只需要在每个数据点上评估in greence函数,这可能是因为元素不是以封闭的形式提供的。我们将在这里依赖样本分裂或交叉筛选,以便在筛选阶段(深度神经网络)估计的较弱条件下为我们框架的所有应用获得所需的理论极限分布。然而,从实际的角度来看,在某些应用程序中,样本拆分或交叉配置的成本可能很高。一个明显的代价是计算上的:机器学习必须对直接的子样本进行多次。一个更微妙的代价,但当样本量很小时,却是至关重要的,那就是更小的(次)样本量会产生更差的结果。sn/snthat参数是更一般的设置。对于λ(x)的估计,我们实际上可能需要三向分裂。因为“结果”需要θxbθxthese在第二个样本上得到bλ(x),然后用参数估计的部分λxbθx(2.3)guàgλxxcovariance矩阵,条件是x,这可以与bθ(x)一起估计,我们将简短地描述估计过程,进一步的讨论留给Chernozhukovet al.(2018年)和纽维和罗宾斯(2018年)。首先,观测值{,..,n}是分裂的Intossets,SS{,..,n}s,..,sscssss=1,.利用ESCSTO得到θ(·)和λ(·)的估计;用bθs(·)和bλs(·)表示这些。如果需要,则scsbθs·bλs·估计量为bμ=ssxs=1bμs,bμs=ssxi∈ssψ(wi,bθs(xi),bλs(xi)),(4.6)sssssn用点估计量b我们需要一个渐近方差的估计量,它是givenbyθ=v[ρ(W,θ(X),λ(X))]。我们使用方差模拟(4.6):b=ssxs=1bs,bs=ssxi∈ss(wi,bθs(xi),bλs(xi))-b.(4.7)从Chernozhukov等人得到了Bμ的渐近正态性和Bμ的相合性。

12
nandehutu2022 在职认证  发表于 2022-4-16 10:05:03
(2018年)。为了强调我们的推论结果,特别是正交分数,在半参数中广泛有用,包括在任何一种ML估计之后,我们对Bθ和Bλ的收敛速度使用了以下高级条件。假设5.基于sizen的样本,对所有k,k∈1,{1,k,k,k,k,k,k,k,kl(X)=o(n-1/4)给出了θ和λObeykbθk-θ0 kkL(X)=o(n-1/4)的估计。..,dθ}.bθλx在这里使用,但并不总是,特别是对于离散数据或非线性模型,其中可能保证分数结果模型或基于分类的损失。我们现在有以下结果,建立了标准误差的渐近正态性和有效性。设0dbe是d-长零矢量,Idbe是d-平方恒等式矩阵。定理3.Wii,.假设5对于所有子样本s=1,.都成立。..,S,具有均匀反向bλS(xi)。5应用:广告和个性化利率5.1经验背景在本节中,我们使用我们的框架来复制和扩展Bertrand et al.tc、RCcontent和rheled利率中提出的分析。关键的结果变量(Y)是贷款人的指标,而不是申请贷款的消费者。我们将使用一个二元选择模型,这是应用经济学中的一个工作模式。还跟踪了应用程序之后的其他变量,如adefault指标(D)和贷款额(L)。这些数据还包含一组丰富的人口统计学(X),我们用它来校准我们的异质性度量。二是我们利用模型的结果(附加一些假设)来构造最优的个性化利率模型,并计算实施个性化方案的预期效果,5.2模型和实现有一个实用函数yui=θc(xi)ci+θr(xi)ri+εi,θXθc,θrtc,rεirespons:p[Y=1X=X,T=T]=gθ(X)T=1+exp(-[θc(X)c+θr(X)r])。利用这些概率,我们可以构造出对数似然表达式`(Y,T,θ(X))=Y log(p[Y=1X=X,T=T])+(1-Y)log(p[Y=1X=X,T=T]),(5.1)。这个问题的负值将作为问题的损失(2.1)。在这种情况下,人们可以很容易地验证高层次的假设,特别是考虑到二元选择模型被广泛研究和很好地理解。例如,它是直接的λxeg(θ(x)t)-G(θ(x)t)txx标准和常用的经济假设。(3.1)`y,t,θxθxnetwork架构源于这样一个事实,即我们有一个较小的数据集(N=53194),而是(d=13)TM使用ADAM优化器构造计算图并优化可能性(Kingmaand Ba,2014)。为了推论的目的,使用三倍交叉分析,使用三分之二的数据得到bθ(x)和三分之一的数据得到bθ.5.3结果和感兴趣的量θxμbθx,我们检查了这些治疗的边际e-ect并将它们与专栏中提出的那些进行了比较,因为它们使用Probit规范,而我们使用logit规范。第二,我们转向amore雄心勃勃的目标定位和利润最大化目标,更充分地利用框架的力量。很快应用。rh-pyx,Rθrxrhθrx/θXθh-θrx-1 logexpθxt,并得到推论。5.3.1边际e ectsθXθc,θrtc,Raverage利率变化的边际e ect isAME(R)=e G(θ(X)t)R t=t*=e G(θ(X)t*)1G(θ(X)t*)θR.t*广告内容随手可得。因此,通过takingH(X,θ(X);t~*)=g(θ(X)t~*)(1-g(θ(X)t~*))θrin(2.2),我们可以应用我们的框架,容易地得到DNN后的推理。Bertrand等人的相应估计。(2010)在HeadingQJE一栏下。很明显,Deep净估计值与原始论文的结果非常匹配,包含原始估计值的con interval也很好,我们可以将其解释为原始的、总体的、对异质性鲁棒的预测值。

13
何人来此 在职认证  发表于 2022-4-16 10:05:10
此外,我们还发现了由θ(x)的变差的COE-CIENT所证明的估计中存在着相当大的异质性。对这些结果的一个更有用的描述是,我们给出了90%和95%的平均边际e-t区间,有垂直线,尽管平均值与刚性参数模型大致匹配,但存在很大的异质性,这对目标的确定很重要。表1:结果变量DNN-AME 95%CI(L)95%CI(U)QJE Pr(θ(x)>0)Coef。var.利率o息er-0.0047-0.0083-0.0011-0.0029 0.1337 1.0211我们说你的语言-0.0048-0.0137 0.0041-0.0043 0.2533 2.0542你的特价利率-0.0034-0.0120 0.0053 0.0001 0.5001 4.4506无照片0.0038-0.0060 0.0136 0.0013 0.5723 3.4931黑色照片0.0016-0.0064 0.0096 0.0058 0.5402 5.1348女性照片0.0060-0.0021 0.0141 0.0057 0.6820 2.3375手机RA E-0.0009-0.0104 0.0085-0.0023 0.4812 17.0059例贷款显示0.0044-0.0084 0.0173 0.0068.8631 1.9379无贷款用途提及0.0108 0.0009 0.0207 0.0059 0.7499 1.0936利率显示0.0017-0.0085 0.0119 0.0025 0.6289 7.9903损失对比0.0001-0.0081 0.0083-0.0024 0.2342 89.3606竞争对手利率显示0.0013-0.0085 0.0111-0.0002 0.4107 9.6790图3:利率边缘e-p ect-0.01 0.00 0.01 0.020 20 40 60 80 100 120报价4 DensityDNNQJE-0.01 0.00 0.01 0.02 0.02 0.03 0.040 40 80报价4 DNNQJE-0.03-0.02 0.00 0.02 0.040 20 40 60 Stripany-0.04-0.02 0.00 0.02 0.040 20 40dPhoto_None-0.02-0.01 0.00 0.02 0.03 0.040 40dPhoto_Black-0.02 0.00 0.02 0.02 0.03 0.03 0.040 40dPhoto_Black-0.02 0.00 0.02 0.02 0.03 0.04 40dPhoto_女性-0.08-0.06-0.04-0.02-0.02-0.02-0.02-0.02-0.02-0.02-–0.01 0.00 0.01 0.02 0.03 0.040 40 80oneln_trt–0.02 0.00 0.02 0.040 20 60使用_任何–0.04–0.02 0.00 0.02 0.040 20 40完整–0.02 0.00 0.02 0.04 0.060 40 80 compross_n–0.04–0.02 0.00 0.02 0.02 0.040 40 80comp_n图4:广告内容的边际e-ect 5.3.2最优个性化o-ershave展示了如何容易地构造边际e-ect等标准兴趣量,以及人们可以对兴趣量进行推断的简单性(如平均利率或预期利率)。rrfunctionp[D=1R=R]=D(δ+δRR)=1+exp(-[δ+δRR])。我们将这些参数作为给定的参数。为了写出给定消费者的预期利率,请给出贷款金额,并且,由于我们的重点是在给定参数的情况下优化利率,因此缩写为EP[Y=1X=X,T=T]=G(r)和P[D=1r=r]=D(r)。则π(r)=Lrg(r)π1-D(r)。(5.2)应用通常的优化机制,我们得到π(r)r=LrπG(r)θr+G(r)[1-D(r)]-rG(r)πD(r)δr=0,该模型简化为(r(1-G(r))θr+1)-rD(r)δr=0。最优利率ER表示为r*,其值为r*=1+r*(1-G(r*))θrd(r*)δr。(5.3)这是一个隐函数,但会有一个独特的点,因为右分子rθr<δr>(5.3)或*.用户间最优个性化O型线(r*)的核密度。我们注意到,虽然图5:最优个性化利率o值点只显示了一个客户子集(为了避免混乱),但密度是在整个样本中计算的。即使GHR*不能以封闭形式提供,它仍然是参数θ的平滑函数,这是我们的方法应用所需的全部。因此,我们可以对形式(2.2)的任何统计作出推论。作为一个简单的例子,图5显示了对μ=e[r*(θ(x))],hr*段的估计和推断,该段为[9.48%,13.98%]。我们通过计算设定最优个性化利率的预期收益来说明。从(5.2)中,这表示为μ=eππ(r*(θ(X)))=EhL[r*(θ(X)))G(r*(θ(X)))][1-D(r*(θ(X)))]i.r*θr*图6:个性化利率的预期收益o-ersπrr=r*=0。

14
mingdashike22 在职认证  发表于 2022-4-16 10:05:17
因此,可以用封闭形式构造预期结果的内差函数。导数给出了接近相同的结果。在我们的分析中,我们将重点放在高风险部分(即预期收入和以个性化利率向每个潜在客户提供100美元贷款。b.......每个客户的贷款密度以及预期利率与仅从实验中得出的最佳(统一)利率之间的估计和预测间隔)。虽然一个更严格的应用程序会在模型和分析中加入许多附加特性,但我们认为上面的示例SU-CES是对我们的方法在应用工作中的价值的概念证明。5.4总结维护,这反过来又保留了参数函数的可解释性。由于推理在我们的框架中接近于自动(随机实验数据的自动),它为应用研究人员提供了一个复杂而实用的分析框架。6示例在这里,我们讨论了几个属于我们框架的例子,既要证明我们的结果对新的和有趣的例子的适用性,也要与现有的结果进行比较。我们强调,这些例子以及更多的例子是在没有额外推导的情况下进行的:了解下面的形式首先从两个熟悉的例子开始,即平均处理e-ects和部分线性模型,然后再讨论其他情况。6.1二元处理的平均e-ects是一个典型的半参数问题,也是最近文献中关于机器学习后推理的标准情况(见4.1节中的参考文献)。这里我们有一个ScalarOutput和t=t={,}是标量二进制处理指示符。当g(u)=u时,模型为(2.3),即[Y x,t]=θ(x)+θ(x)·t。如果treatmentt=t下的潜在结果是treatmentt=t下的潜在结果,我们将[Y(0)x=x]=θ(x)和[Y(1)x=x]=θ(x)+θ(x),因此可以添加θ(x)额外的均值参数来覆盖平均处理,以用于使用经典非参数(序列)和Farrell(2015)用于机器学习(grouplasso)结果的推理。朴素的估计方法要么涉及[yx,t]oreyxxeyxθxcontrol的非结构化建模。Zeileis等人过去对树木也使用过同样的概念。(2008)和Athey andImbens(2016),其中治疗组和对照组共用一个分区,由Farrell等人。(2021)归算(Imbens et al.,2007;Cattaneo and Farrell,2011)和逆加权(Hirano et al.,2003)是半参数的e-cient。(2.2)Hx,θt*θ(2.1)`为平方损失,我们恢复了我们熟悉的e-cient函数。看到这个,从(4.5)\\h\\hλλxλxptxxpxpx(1-t)t=0开始,我们有ρ(w,θ,λ)=θ(x)+πH(x)(λ(x)-λ(x)t-λ(x))λ(x)λ(x)-λ(x)(y-g(θ(x)t))=θ(x)+(t-p(x))(y-θ(x)-θ(x))p(x)=θ(x)+[(1-p(x))t-p(x)(1-t)](y-θ(x)-θ(x)t))p(x)(1-p(x))=θ(x)+(1-p(x))t(1-p(x))t(1-p(x))t(1-p(x))t(1-p(x))t(y-θ(x)-θ(x))t(yx)(1-p(x))-p(x)(1-t)(y-θ(x)-θ(x)t))p(x)(1-p(x))=θ(x)+t(y-θ(x)-θ(x)t))p(x)-(1-t)(y-θ(x)))(1-p(x)),0和1确保了λ(x)-1的行为良好:λ(x)=p(x)(1-p(x))的行列式,上面的初始分母。在许多方向上扩展这个示例是很简单的。来欣赏接受\'(y)是多么简单,t,θ(x))是高斯似然,但是,我们不是假设常方差(从而进行最小二乘回归),而是通过σxtσx-t,对两个附加参数进行优化,这是从似然理论中众所周知的,可以在这里直接使用。6.2部分线性模型第二个广泛研究的半参数问题是部分线性模型,其中G(θ(x)+θt),θgu`θ(w,θ(x))=t(G(θ(x)t)-y),如上文所述。通常,感兴趣的参数是θ,在这种情况下(4.5)给出,θ(w,θ,λ)-θ是λ(x)-λ(x)λ(x)-1t-λ(x)λ(x)y-g(θ(x)+θt)。λxλxλxλgt.G是适当的损耗。

15
大多数88 在职认证  发表于 2022-4-16 10:05:24
在某些情况下,非奇异性会伴随着其他正则性条件,即gg-gcovariates,我们使用对数似然。一个线性链接函数。明确地处理机器学习之后的推理,Belloni等人的开创性工作。(2014)在套索选择后被证明有效的推论。切尔诺朱科夫等人。(2018)术语多的useinference;他们也给出了许多使用经典非参数的参考文献。对于非线性链接函数的情况,Carroll等人。(1997)和Mammen和van de Geer(1997)研究了非参数情况,正如我们在第3节中所做的那样,而Belloni等人。(2016)研究同态性下的高维θxθx线性情况,但不是其他情况。文献几乎完全集中在常数coe cientθ的推断上,但我们应用的微观经济学对函数θ(x)感兴趣,见Cattaneo等人。(2020a)和Cattaneoet al(2019)6.3连续处理和平均部分E-扩张超过离散处理或均匀E-扩张,我们的框架给出了一个简单的方法来估计部分E-扩张。在这种情况下,我们从一个线性模型开始,e[Y x,t]=θ+θt,并将斜率和截距浓缩为参数函数,从而使e[Y x,t]=θ(x)+θ(x)t。在这种情况下,一个常见的参数是平均斜率,或斜率,μ=e[θ(x)]。虽然我们不局限于这个参数,但它是有用的,因为它是不均匀部分e-ects的平均值,由于该模型,它可以通过Takinge[θ(x)t*]外推到任何治疗水平。Wooldridge(2004)和Graham and Pinto(2018)与我们在这个例子中的工作最接近,并用θ0 kxdi-erent方法恢复平均e-ects,但Brie Cancy讨论了双重鲁棒性。切尔诺朱科维特。(2019)使用一个类似的模型,目标是策略目标。我们的In函数专门针对Graham和Pinto的E_cient in函数,然后我们有λ(x)=1E(x)E(x)E(x)E[T Tx]和hθ=(dμ,idμ),所以经过一些代数运算后,方程(4.4)给出了θ(w,θ,λ)=θ(x)-V(x)-1(t-e(x))(y-θ(x)-θ(x)T。标量情况的一个简单但有用的扩展是,当向量包括多项式时,或异构E ects。也就是说,对于两种不同的治疗方法,我们可能对Thett×TTE有兴趣。这些对象通常是在参数情况下研究的,这里我们允许这些e-ects的完全异质性,而不是最初的处理或部分e-ect,感兴趣的是跨部门的市场份额分布。在大多数应用中,研究人员可以访问{Yjm}j。..JM。..Mmarkets。然后,我们的目标是将这些模型作为市场营销决策的函数来建模,这样我们就可以写出(j-1)方程的集合,如下Logyjmy0m x=xm,tjm=tjm=θ01J(xm)+θ(xm)(Tjm-t0m)。把这些方程和相应的数据叠加起来,我们就可以构造θ01J(xm)和θ(xm)的估计量。我们在此注意到,我们的框架可以扩展到包括沿奥奎等人路线的文书。(2012).YCKθ(x)Lθ(x)与T=(K,L),我们可以用我们的格式asE[log Y x=x,K=K,L=L]=log C+θ(x)·log K+θ(x)·log L来写这个模型。这可以通过计算μ=E[θ(x)+θ(x)]和μ<,μ,μ>来确定。上面描述的框架也很容易适用于那里。将我们的模型E[Y x,t]=θ(x)+θ(x)t与完全不受限制的情况E[Y x,t]=θ(x,t)进行对比是有用的。特别是对于因果推理,Hirano andImbens(2004)和Kennedy等人使用双重稳健的方法研究了这种情况。(2017年)和科兰杰洛和李(2020年)。不受限制的模型可能会增加结果的一般性,但会使推理和解释更加直观。在这里,我们的模型强加了非平凡的结构,这与binarycase不同,但产生了一个可处理和可解释的模型。

16
大多数88 在职认证  发表于 2022-4-16 10:05:31
从实用的角度出发,比较了toEY x、Tθx、tconditional密度估计,它们在高维、复杂的情况下可能具有挑战性。另一个相关领域是(加权)平均导数的研究,这是半参数理论上的一种常见估计(Powell et al.,1989;Newey and Stoker,1993)。这里,对于已知的加权函数w(x,t),感兴趣的对象是[w(x,t)θ(x,t)/t]。这代表了玩具中非结构化关系的线性近似的平均值。我们的方法也许是morelinear近似,而不是从一个更复杂的对象中恢复它。6.4分数结果在前面的例子基础上,我们强调非线性模型是无缝覆盖的,givenWooldridge(1996)。在这些模型中,外部条件是连续的,但仅限于[0,1]。在这篇论文中,抽样单位是401(k)计划中的员工分区率。在单位间隔上。他们认为这一规定即使在端点也是有效的,并且比相依变量的变换更实际相关。Wooldridge(1996)Assumee[Y x=x,t=t]=g(θ+θ·t+γx),带有逻辑联系;一个结构化的,但刚性的,带有协变量的参数模型。我们考虑了更一般的[Y X=X,T=T]=G(θ(X)+θ(X)·T).参与的匹配率和这种边际e-ect表现出递减模式的程度。为了研究这种情况,Papke和Wooldridge(1996)以xandt_∞{0.0,0.5,1.0}边际e-ect为例,评估边际e-ect(ACME)的值,以及边际e-ect(ACME)的平均变化,由ame(t_)=e e[Y X,T]T T=T*和ACME(t_)=e e[Y X,T]T T=T*和ACME(t_)=e e[Y X,T]T T=T*给出。μhame(X,θ;t:/)θg:/(1-g:/)HACME(x,θ;T:/)θg:/(1-g:/)(1-2g:/),其中g:/=g(θt:/)。注意与朴素的非结构ML方法的对比,在这种方法中,恢复复杂的高维G(u(x,t))的二阶导数可能是一个挑战。(2.1)(2.3)e^gt tx假设。定理2(或在这种情况下,方程(4.4)或(4.5))立即适用。对于`所需的导数是从似然理论中众所周知的,可以直接使用。6.5类型I是参数MLE所需标准条件的条件版本,因此,我们可以通过将我们的方法想象成参数MLE foreach值x.ymax,y*y*x,平均值由β(x)t和方差σ(x)给出(在实践中,我们可以以σ(x)=exp{~σ(x)}为例)来直观地理解我们的条件。在这种情况下,我们使用变换后的参数θ(x)=(θ(x),θ(x)),其中θ(x)=β(x)/σ(x)和θ(x)=σ-1(x)。请参见Amemiya(1985)和Wooldridge(2010)以获得关于下面计算的文本处理和细节。这些都可以用来理解,我们为这个缩写道歉。我们欢迎其他的建议。{y'`}{y''}φ梯度(分数)项是`θ(w,θ(x))=φ(θ(x)t)t1-Φ(θ(x)t)-θ(x)t,`θ(w,θ(x))=-θ(x)-1+(θ(x)y-θ(x)t)y,二阶导数是`θθ(w,θ(x))=-φ(θ(x)t)(θ(x)t)t1-Φ(θ(x)t)+φ(θ(x)t)tt[1-Φ(θ(x)t)]+tt,`θθ(w,θ(x))=θ(x)t)=-θ(x)t)+tt(x)-2+y,且`θθ(w,θ(x))=yt,可以直接证明梯度条件平均为零。矩阵λ(x)-1的存在是因为θ(x)t-φ(θ(x)t)/[1-Φ(θ(x)t)]>0,完全使用参数模型的逻辑(Donald,1990;Olsen,1978;Amemiya,1985)。自然,其他条件,如光滑性,将βxσx,或其他非参数估计。6.6多项式选择在应用中考察的二元选择模型自然扩展到多重选择。这里是(2.1)J≥position。其结果是范畴变量亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏亏标准假设是:tp[Y=j X=X,T=T]=Gj(u,u,...,uJ),其中Gj=exp{uJ}1+pjm=1exp{um},ujjx,tuGjGju,u,....

17
mingdashike22 在职认证  发表于 2022-4-16 10:05:39
利用y+y+···+yj=1,u=0和Gj的形式,对数似然为`=log(G)+jxj=1yjuj。负值是我们最小化的损失。许多学科的defacto标准是McFadden的多项式选择模型,我们的enrichedversion假定效用obeyuj(x,tj)=θ01j(x)+θ(x)tj,j=1。.、J、tjintercept函数是选择指定的,价格e-ect函数在各种选项中都很常见。该模型得到了很好的研究,梯度θ(w,θ(x))和Hessianθθ(w,θ(x))得到了很好的理解,参数μ可以依赖于截距函数和斜率函数中的任何一个。正交计分实现。6.7工具性变量。为了简单起见,考虑一个内源性治疗变量和一个单一检测变量的情况。在我们的环境中,允许在仪器的e-ects中观察到的完全合理的异质性是很自然的。因此我们得到两个方程模=θ(X)+θ(X)T+V,(6.1)T=ζ(X)+ζ(X)Z+U,(6.2)EV X,ZEU X,Zscore,我们简单地将(6.2)插入到(6.1)中,得到约化形式等价=α(X)+β(X)Z+~v,α(X)=θ(X)+θ(X)ζ(X),β(X)=θ(X)ζ(X),~v=θ(X)U+v(6.3)。用这种方法直接推广了(6.2)和(6.3)中的标准两级最小二乘法,精确地估计了coe-cient函数。损失(2.1)简单地是两个平方损失的和。用这个符号,我们的目标是恢复一个依赖于(6.2)和(6.3)的coe函数的参数,由μ=E[H(X,α,β,ζ,ζ;t*)]给出。(6.4)tμeθxe[β(X)/ζ(X)]。注意,这里我们假设强仪器的类似物,因为我们需要ζ(X)不在零的地方。θα,β,ζ,ζwy,t,zt,tz,zand2×2恒等式。那么我们有`θ(w,θ(x))=-y-α(x)-β(x)Zt-ζ(x)-ζ(x)zz和`θθ(w,θ(x))=i zz。因此λ(x)=iλz(x),其中λz(x)=e[zz x=x]。这些可以直接插入到方程(4.3)中。这种方法远非工具变量模型的唯一选择。事实上,这里的specialprocess旨在易于使用和透明:(6.2)和(6.3)可以使用第3.7节扩展的深度学习架构直接估计。我们的框架与许多去偏推断的直接领域相连,其中一些已经在我们排除的环境中探索过。我们的方法思想可以扩展到这些解决方案中的许多问题。在我们的两步方法的基础上,我们可以考虑更一般的两步GMM类型问题,在这些问题中,深度学习已经丰富了这一步。在某些情况下,我们的结果可以直接扩展,主要是以符号为代价。例如,不需要将μx限制为封闭形式,但在这种情况下可以给出(2.2)μmaxμehx,μ,θxt*ehx,μ,θxt*可实现的结果,这是未来研究的一个有趣途径。θx含义和可解释性。对此的一个有用的扩展是考虑形状限制;seeChetverikov等人。(2018)供复核。例如,价格coe cients应该是非正的,并且θ<θ(x)<0。在我们的经验中,模型的规则经常产生经验上无法估计的函数。然而,这并不总是成立的,它将有兴趣在估计期间加强这一点,并建立第二步推断。加强这种形状约束的一种可能性是通过设计一个适当的屏障函数来增加原始损失,从而利用约束优化中发展的技术(Nesterov和Nemirovskii,1994)。只要近似结果仍然成立,就可以得到定理1的一个版本,然后就可以用In函数进行推论。在这种情况下,我们的想法与关于去偏函数的文献相联系,因此[Y x,t]=θ(x)t。在θ(X)中的维数和所允许的复杂性之间存在一个基本的张力。我们已经研究了完全不相容的异基因可能的情况,至少没有达到允许推论的精确程度。

18
何人来此 在职认证  发表于 2022-4-16 10:05:45
因此,在治疗变量的维度和异质性的复杂性之间存在着一种自然的贸易关系。如果研究者能先验地限制非均匀性的形式,使函数θ(x)是简单的,或者在极端情况下是常数,那么就可以得到有用的结果。对于这个模型,Javanmardand Montanari(2018)寻求一个高斯极限,即bθ=bθLasso+nbλtn yn-tnbθLasso,bθLassobλet TofXin这个受限模型,数据为yn=(y,...,yn)和tn=(t,...,tn)。上面的展示与我们的定理2(特别是推论2中的形式)完全相似,在这两种情况下,这一项起着本质上相同的作用。正如Neyman正交性所要求的那样,人们可以检查对θ的扰动在预期中没有一个有限阶的影响。与定理3类似,它们要求Bθlasso、Bλ分别是θ和λ的“足够好”的st-stage估计量,它们证明了在设计Tn的条件下的稀疏回归。上面的线性模型排除了所有的异质性,因此对我们现在的Xx来说不那么有趣,TTθxθ将学习t与结果之间的边的权值。维度回归需要某种形式的正则化。我们提供了一个完整的方法框架,用于使用机器学习来丰富经济网络体系结构,该体系结构旨在估计经济上有意义的对象,从纯粹预测转向结构建模。我们给出了异质性估计的结果,证明了基于一个新计算的具有广泛适用性的In函数的推理是有效的。我们的框架涵盖了各种有趣的上下文。我们所采用的特性、计算基础设施的可用性和上述理论的结合为应用研究人员提供了一个完美的包。9参考“TensorFlow:在异构系统上的大规模机器学习”,软件可从Tensor cirow.org获得。(引自第29页。)Ackerberg,D.X.Chen和J.Hahn(2012):“一个实用的渐近方差估计器,第23页。)Amemiya,T.(1985):《高级计量经济学》,哈佛大学出版社。(引自第42和43页)《美国国家科学院院刊》,第113,7353-7360页。(引用于第37页。)Athey,S.,J.Tibshirani和S.Wager(2019):“广义随机森林”,《统计年鉴》,47,1148-1178。(第11页引用。)(第12页引用。)巴赫,F.(2017):《用凸神经网络打破维数诅咒》,机器学习研究杂志,18,629-681。(引自第17页。)Bartlett,P.L.,O.Bousquet和S.Mendelson(2005):“本地rademacher复杂性”,《统计年鉴》,33,1497-1537。(引用于第56页)Bartlett,P.L.,N.Harvey,C.Liaw和A.Mehrabian(2017):“几乎紧密的风险投资-维度学习理论(COLT 2017)。(引自第58页。)载《非参数回归》,“统计年鉴”,47,2261-2285。(引用于第17页。)Belloni,A.,V.Chernozhukov和C.Hansen(2014):“关于治疗的推断在第18、19和38页之后。)Belloni,A.,V.Chernozhukov和Y.Wei(2016):《具有许多控制的广义线性模型的后选择推断》,商业与经济统计杂志,34,606-619。(第38页)《经济学杂志》第25页,第242-262页。(引用于第40页。)Bertrand,M,D.Karlan,S.Mullainathan,E.Shafir和J.Zinman(2010):《经济学季刊》第125页,263-306页。(引用于第1、28、29和30页。)第17页。)第38页。)在《无知》下,“计量经济学杂志,155、138-154。(引用于第36页。)第十四章:1902.09608。(引用于第39页。)卡塔尼奥,M.D,R.K.克伦普,M.H.法雷尔和E.Schaumburg(2020a):”特征(引用于第39页。)卡塔尼奥,M.D和M.H。

19
可人4 在职认证  发表于 2022-4-16 10:05:52
Farrell(2011):“使用协变量上的子分类对可忽略情况下剂量反应函数的估计”,载于《计量经济学进展:MissingData Methods》,编辑。D.Drukker著,翡翠集团出版有限公司,第一卷。27A,93-127。(引用于第36和37页。)----(2013):《最优收敛速度、Bahadur表示和划分估计量的渐近正态性》,《计量经济学杂志》,174,127-143。(引用于第11页。)基于划分的序列估计器,“统计年鉴,48,1718-1741。(引用于第11页。)Cattaneo,M.D.,M.Jansson和W.K.Newey(2018):《具有多协变量和异方差的线性回归模型中的推断》,美国统计协会杂志,113,1350-1361。(引自第38页。)(引自第11页。)Chen,H.,A.Didisheim和S.Scheidegger(2021):《深度结构估计:及其在期权定价中的应用》,arXiv预印本:2102.09209。(引自第12页)美国统计协会,88,298-308。(引用于第9页。)陈旭(2007):“半非参数模型的大样本筛分估计”,载于《中国章手册》。76.(引自第3、12和13页)Chernozhukov、V、D.Chetverikov、M.Demirer、E.Duflo、C.Hansen、W.Newey,《计量经济学杂志》,21,C1-C68。(引用于第3、18、19、25、26、27、38、45和63页)“神经信息处理进展”。加内特,15065-15075。(引自第39页)和第19页)arxiv:2104.14737。(引用于第18页。)因果和结构的学习,“arxiv:1809.05224。(引用于第18页。)---(2020c):《使用正则化Riesz表示的全局和局部参数的去偏机器学习》,ARXIV:1802.08667。(引用于第18页。)对Riesz表征的估计,“arXiv预印本arXiv:2101.00009。(引用于第18页),“经济学年度评论,第10页,第31-63页。(引用于第46页)克利夫兰,W.S.,E.Grosse和W.M.Shyu(1991):“局部回归模型”,载于Statisticalmodels,S,Ed。J.M.Chambers和T.Hastie著,PaciefycGrove:Wadsworth和Brooks/Cole,309-376。(引用于第9页。)连续治疗的推论,“ARXIV:2004.03036。(引用于第41页。)Crump,R.K.,V.J.Hotz,G.W.Imbens,和O.A.Mitnik(2008):《非参数检验》,第22页。)Donald,S.G.(1990):《异方差有限因变量模型的估计》,英属哥伦比亚大学博士论文。(引用于第43页。)及其接口,1179-195。(引用于第11页。)协变比观察,“ARXIV:1309.4686,《计量经济学杂志》,第189页,1-23页。(引用于第18页和第36页。)Farrell,M.H.,T.Liang,和S.Misra(2021):“用于估计和推理的深度神经网络”,ARXIV:1809.09953,Econometrica,89,181-213。(引用于第3、10、13、14、17、26、27、37、56、57和58页。)第十四章:1901.09036。(引用于第24页。)Goodfellow,I.Y.Bengio,A.Courville(2016):Deep learning,Cambridge:MIT出版社。(引用于第10页。)Graham,B.S.和C.C.D.X.Pinto(2018):《平均线性回归函数的半参数估计》,《计量经济学杂志》,即将出版。(引自第39页。)平均治疗E例句,“计量经济学,66,315-331。(引自第18页和37页。)----(2004):“因果推理中的功能限制和因果关系”,《经济学与统计学评论》,第84页,第73-76页。(引用于第18页。)relu activations,“arXiv预印本arXiv:1708.02691。(第13页引用)统计学会,B辑,55,757-796。(引自第9页)Hirano,K.和G.W.Imbens(2004):“连续治疗的倾向评分”。孟,纽约:威利,73-84。(引用于第40页。)E使用估计的倾向得分,“计量经济学,71,1161-1189。(引自第18页和37页)arxiv:1712.00038。(引自第39页)Huang J.Z.和H.Shen(2004):“非线性时间序列的函数回归模型:多项式样条方法”,斯堪的纳维亚统计学杂志,31,515-534。(引用于第59页)arXiv预印本arXiv:1508.01378。

20
大多数88 在职认证  发表于 2022-4-16 10:05:59
(引用于第18、19和59页。)AlphaGo,《计量经济学杂志》,即将出版。(引自第12页。)平均处理E插科打诨,“工作文件。(引用于第18页和第37页。)Javanmard,A.和A.Montanari(2018):“解除套索的偏置:高斯坐标系的最佳样本量”,《统计年鉴》,第46页,第2593-2622页。(引用于第47页。)Kaji,T.E.Manresa和G.Pouliot(2020):《结构估计的对抗性方法》,ARXIV预印本,ARXIV:2007.06169。(引自第12页)arxiv:2004.14497。(引自第24页。)社会。B系列,统计方法学,79,1229。(引自第41页)Kingma,D.P.和J.Ba(2014):《亚当:随机优化的一种方法》,arXiv PreprintarXIV:1412.6980。(引用于第29页。)第47页。)商业与经济统计杂志,第20页,第412-422页。(引用于第9页)和参数结果,“arxiv:1811.03179。(引用于第17页。)梁,T.和H.Tran-Bach(2020):“深度神经网络的Mehler公式、分支过程和组成核”,arXiv预印本arXiv:2004.04767。(引用于第17页。)马,X.和J.Wang(2020):“使用逆概率加权的鲁棒推理”,《美国统计协会杂志》,115,1851-1860。(引自第22页。)Mammen,E.和S.van de Geer(1997):《部分线性模型中的惩罚拟似然估计》,《统计年鉴》,25,1014-1035。(引用于第23页和38页。)Maurer,A.(2016):《关于Rademacher复杂度的向量收缩不等式》,载于AlgorithmicPublishing,3-17。(引用于第57页。)非线性半参数模型的学习,“ARXIV:1806.04823。(引自第24页。)程序设计,暹罗。(引自第46页)69,307-342。(引自第40页。)Newey,W.K.(1990):“半参数e-ciency界”,《应用计量经济学杂志》,第5页,99-135页。(第59页引用)1382。(引用于第3、18、21和59页。)Newey,W.K.和D.L.McFadden(1994):《计量经济学》的“大样本估计和假设检验”,第一章。36,2111-2245。(引用于第8、19和23页。)Newey,W.K.和J.M.Robins(2018):《半参数估计的交叉筛选和快速余数率》,arXiv预印本arXiv:1801.09138。(引自第26页。)Newey,W.K.和T.M.Stoker(1993):“加权平均导数估计和指数模型的e-ciency”,《经济计量学》,第61页,第1199-1223页。(引自第41页)arxiv:1712.04912。生物测定,即将发布。(引自第24页)《统计学会》:B辑,40,1-24。(引自第9页)Okui,R.D.S.Small,Z.Tan,J.M.Robins(2012):“双稳健工具变量分析”,中国统计学,22,173-205。(引自第40页。)奥尔森,R.J.(1978):《关于Tobitmodel的最大似然估计量的唯一性的注记》,《经济计量》,46,1211-1215。(引用于第43页)Padilla,O.H.M.,W.Tansey,Y.Chen(2020):“分位数回归与ReLU网络:估计量和极小极大率”,arXiv预印本arXiv:2010.08236。(引用于第13页。)变量与401(k)计划参与率的应用,“应用计量经济学杂志,11,619-632。(引自第41页)神经信息处理系统的进展,930-941。(引自第17页)Powell,J.L.,J.H.Stock,T.M.Stoker(1989):“指数的半参数估计”,《经济计量学》,57,1403-1430。(引自第41页)Robins,J.M.,A.Rotnitzky,和L.Zhao(1994):“当某些回归子并不总是被观察到时回归子的估计”,《美国统计协会杂志》,第89,846-866页。(引用于第37页。)激活函数,“ARXIV:1708.06633,统计年鉴,即将出版。(引用于第17页)Stone,C.J.,M.H.Hansen,C.Kooperberg,Y.K.Truong(1997):《扩展线性建模中的多项式分裂及其张量积:1994年Wald纪念讲座》,《统计年鉴》,25,1371-1470。(引自第9页。)Tan,Z.(2020):“使用高维数据的正则化校准估计进行治疗的模型辅助推断”,《统计年鉴》,48,811-837。(引自第24页。)范德法特,A。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 19:05