楼主: nandehutu2022
1594 48

[经济学] 正则化回归模型中的偏差感知推理 [推广有奖]

11
可人4 在职认证  发表于 2022-4-28 16:05:58
由于有点滥用术语,我们将这种回归称为倾向评分回归(尽管我们不需要wito bebinary)。为了说明结果,让π*λ表示惩罚笔(π),minπkw的正则开放度得分回归中Z的系数估计-Zπks。t、 Pen(π)≤ tλ,(9)临界值cv1-α(B)可以计算为1的平方roo t- 具有1个自由度和非中心参数B的非中心χ分布的α分位数,其中tλ是惩罚项的界。这里,λ对等式(9)中约束的权重进行索引。它可以是(9)的拉格朗日公式中的拉格朗日乘子,也可以直接求解(9),取tλ=λ。定理2.1。让π*λ是(9)的解,假设kw- Zπ*λk>0。蒂娜*λ=w-Zπ*λ(w)- Zπ*λ) 界为B=Ctλ·(w)的′wsolves(8)- Zπ*λ) ′Zπ*λ(w)- Zπ*λ) 因此,估计量^βλ=a的最坏情况偏差和方差*λ′Y=(w)-Zπ*λ) ′Y(w)-Zπ*λ) ′w(10)是givenbybiasΓ(^βλ)=CBλ,Vλ=σkw-Zπ*λk[(w-Zπ*λ) ′w],其中bλ=Pen(π)*λ) (w)- Zπ*λ) ′Zπ*λ(w)- Zπ*λ) ’w.(11)将布拉吉莫夫和哈斯·明斯基(1985)、多诺霍(1994)、罗(1995)以及阿姆斯特朗和科尔斯·阿尔(2018)的一般理论应用到我们的设置中,从而使我们能够将(8)改写为凸优化问题。解决这个凸问题就会得到结果。定理2.1表明,通过一个简单的两步程序,可以获得最佳权衡偏差和方差的线性估计类(即,它们为某些B求解等式(8))。在第一步中,我们估计惩罚倾向评分回归(9),由惩罚项λ表示,惩罚由决定Γ的惩罚笔给出。在第二步中,我们使用残差w-Zπ*λ作为Y对w的回归中的工具。

12
可人4 在职认证  发表于 2022-4-28 16:06:02
惩罚λ*mse与λ*F产生线性估计量^βλ*mse和^βλ*FLCIT优化MSE标准,并产生与单变量优化问题λ的解相对应的最短CI长度(对于线性估计器,该长度是固定的;见等式(7))*MSE=argminλVλ+(CBλ),λ*FLCI=arg minλcvα(CBλ/pVλ)pVλ,(12),其中Vλ和bλ在(11)中给出。As tλ→ 如果Pen(·)是Z上的范数,则^βλ收敛到短回归估计^βshort=w′(I-HZ)Yw′(I)-HZ)仅包括不受限制的控制Z。该估计器使所有线性估计器之间的方差最小化,且具有有限的最坏情况偏差。在另一个方向,如tλ→ ∞,^βλ收敛于长回归估计^βlong=w′(I-HZ)Yw′(I)-HZ)w,前提是w不在Z的列空间中(这确保了条件kw- Zπ*λk>0在理论上为2。1适用于所有λ)。这个估计器使所有无偏线性估计器之间的方差最小化,因此定理2。在这种情况下,1R导出了高斯-马尔可夫定理。换句话说,短回归和长回归是偏差-方差权衡的角解,其中权重完全放在方差或偏差上。例2.1(l刑罚(续)。在这种情况下,(9)的一个方便的拉格朗日公式是π*λ=arg最小πkw-Zπk+λkMπk,如果Z′Z+λM′M是可逆的,采用一阶条件立即得到封闭形式的解π*λ=(Z′Z+λM′M)-1Z′w是倾向得分的(广义)岭回归估计量。简单代数表示^βλ=(w- Zπ*λ) ′Y(w)- Zπ*λ) \'w=e\'X′X+λ00米-1X′Y,(13),其中e=(1,0,…,0)′是第一个标准基向量。因此,最优估计也可以从Y到X的广义岭回归中获得。在这种情况下岭回归的最优性由I(1982)证明,上述推导给出了定理2的一个特例。1.

13
nandehutu2022 在职认证  发表于 2022-4-28 16:06:05
如果M=(0),(Z′(I- HZ)Z/n)1/2),然后估计器进一步简化为短期和长期回归估计的加权平均,^βλ=ω(λ)^βshort+(1- ω(λ))^β长,权重ω(λ)=λ/nλ/n+,=w′(I- HZ)ww′(I)- HZ)w=var(β短)var(β长)。短回归的权重随着λ的增加而增加(随着偏差-方差权衡中方差的相对权重增加),随着的增加而减少。例2.2(l刑罚(续)。在这种情况下,(9)的解由套索估计(Tibshirani,1996)的方差给出,该方差只惩罚γ。由此产生的估值器^βλ与最近提出的使用套索构造CIS的估值器有关(见Zhang和Zhang,20 14;Javanmard和Montanari,2014;van de Geer等人,2014;Belloni等人,2014)。这些论文提出了β的估计器,将Y到X的结果回归的lasso估计与lasso估计相结合,只要没有元素π6=0同时满足Zπ=0和Mπ=0,这就成立。直观地说,如果Zhas秩小于k,那么数据就不能提供关于某些方向π的信息,我们需要矩阵xm在这些方向上对π进行有效限制。术语“岭回归”有时用于M′M=Ik的情况。在这里,我们使用这个术语来包括这样的泛化。从倾向评分回归中得出的估计值在Y中是非线性的。相反,我们的估计器只对倾向评分回归使用套索估计,在Y中是线性的。在第5节中,我们详细比较了我们的估计量和这种“双套索”方法。例2.3(部分线性模型)。

14
可人4 在职认证  发表于 2022-4-28 16:06:09
为了灵活地控制低维协变量集zi,可以指定一个半参数模型Yi=wiβ+h(~zi)+εi,gPen(h)≤eC,其中PenaltyPen(h)是函数h(·)上惩罚h的“粗糙度”的半形式,例如h的h¨older或Sobolev半形式或der q。Heckman(1988)考虑了该模型中Pen(h)的特定选择的极小极大线性估计。通过定义Z=In,γi=h(~zi)和Pen(γ)=minh:h(~zi)=γi,i=1,…,该设置也可以直接进入您的设置,。。。ngPen(h)(假设取最小值)。理论2。1则意味着最优估计器的形式为^βλ=Pni=1(wi- G*λ(~zi))YiPni=1(wi-G*λ(~zi))wi,其中g*λ(·)类似于正则化回归估计π*λin(9):它解算出nxi=1(wi- g(~zi))s.t.gPen(g)≤ tλ。当pen是Sobolev半范数时,这会产生一个样条估计g*λ(例如,见Wahba,1990)。罗宾逊(Robinson,1988)的一篇综述性论文以及其中引用的早期论文对部分线性模型进行了处理。有趣的是,Robinson(1988)提出的估值器与估值器^βλ的形式类似,它包含了w对zi的非参数回归的残差。虽然Lobinson(1988)的分析是渐近的,但我们的结果表明,这种估计的厌恶具有明显的有限样本最优性。2.4在非线性程序中的效率因此,到目前为止,我们将注意力限制在结果中线性的程序上。我们现在证明了估计量^βλ*MSE和基于^βλ估计的CIs*事实上,FLCIA在所有程序中都是高效的,而不仅仅是线性程序。这是因为para meterspaceΓ是凸的和对称的,并且遵循了inDonoho(1994)、Low(1995)以及Armstrong和Koles\'ar(2018)关于凸参数空间正态模型中线性泛函估计的一般结果。推论2.1。让λ*mse与λ*flci可以在等式中给出。

15
nandehutu2022 在职认证  发表于 2022-4-28 16:06:14
(12) ,其中优化超过llλ,且tλ>0,因此:- Zπ*λk>0。Le t^βλ、Bλ和Vλ可在(1)中给出。设β和βχ表示其他(可能是非线性的)估计量和其他(可能是非线性的、可变长度的)CI。(i) 对于任意λ,supβ∈R、 γ∈Γvarβ,γ(Γβ)≤ Vλ表示偏差Γ(Γβ)≥ CBλ和偏压Γ(Γβ)≤ CBλ表示supβ∈R、 γ∈Γvarβ,γ(Γβ)≥ Vλ。(ii)最坏情况下的^β对^βλ的MSE改善*mse以mse(∧β)RMSE(^βλ)为界*MSE)≥ κ*MSE(X,σ,Γ)≥ 0.8,其中κ*MSE(X,σ,Γ)在附录A中给出。2.(iii)与最佳线性FLCI^βλ相比,CIβ±χ的预期长度有所改善*FLCI±cvα(CBλ)*FLCI/V1/2λ*FLCI)V1/2λ*FLCIatγ=0,且任何β都以β,0[~χ]cvα(CBλ)为界*FLCI/V1/2λ*FLCI)V1/2λ*FLCI≥ κ*FLCI(X,σ,Γ),其中κ*附录A给出了FLCI(X,σ,Γ)。当α=0.05时,至少为0.717。通过构造,估计量^βλ最小化了偏差上有丰富CBλ的所有线性估计量之间的方差(或者等价地,它最小化了偏差上有丰富Vλ的所有线性估计量之间的偏差)。推论2。1(i)表明,如果我们将估计量的类别扩大到所有估计量,包括非线性估计量,那么这个最优性性质是保留的。因此,最小最大线性估计^βλ*MSE(即在线性估计类中达到最低最坏情况MSE的估计量)在所有估计量中继续表现良好,包括非线性估计量:推论2。1(ii),其最坏情况下的MSE效率至少为80%。

16
何人来此 在职认证  发表于 2022-4-28 16:06:18
结合κ的精确效率*MSE(X,σ,Γ)取决于设计矩阵、噪声级和参数空间的特定选择,在特定应用中可以显式计算。我们发现,通常效率要高得多。最后,推论2。1(iii)表明不可能基于^βλ对OFLCI进行实质性改进*当γ=0时,就预期长度而言,即使我们考虑“直接幂”为tγ=0的可变长度CI(当γ6=0时,可能以更长的预期长度为代价)。FLCI的构造可能看起来比较保守:其长度取决于(β,γ′)的参数空间的最坏情况偏差,正如REM 2.1的证明所示,该偏差在γ=Ct时达到-1λ*FLCIπ*λ*FLCI,Pen(γ)=C。因此,人们可能会担心,当γ的大小远小于C时,FLCI太长。推论2。1(iii)表明情况并非如此,FLCI的效率至少为71。7%相对于可变长度CI,当γ=0时,可变长度CI优化其预期长度。效率结合κ*MSE(X,σ,Γ)可以在特定应用中显式计算,我们发现它通常比71.7%要高得多。推论的结果。1(iii)是指不可能形成一个与约束Pen(γ)的正则参数C相适应的CI。在当前设置中,一个nadaptive CI的长度将自动反映真实的规则性Pen(γ),同时在Pen(γ)上保持保守的先验界限下的覆盖率。然而,根据Corollary 2。1(iii),任何CI的预期宽度都必须反映保守的a先验界C,而不是真正的正则性Pen(γ),即使Pen(γ)比保守的a先验界C小得多。尤其是,在形成CI时,不可能自动选择正则性参数C。

17
何人来此 在职认证  发表于 2022-4-28 16:06:21
因此,我们建议将C作为灵敏度分析的一种形式,或使用辅助信息来选择C;见备注3。3.3非高斯和异方差误差的实现我们现在讨论实际的实现问题,允许ε为非高斯和异方差。作为基线,我们提出以下实现:算法3.1(基线实现)。输入数据(Y,X)、惩罚笔(·)、正则性参数C和残差的初始估计^ε初始,1,εinit,n.β1的输出估计和CI。假设齐次方差,计算初始方差估计量σ=nPni=1εinit,i。2.计算解的路径{π*λ} λ>0,用于正则化倾向评分回归ineq。(9) ,通过惩罚权重λ进行索引。对于每个λ,计算公式(10)中的^βλ,计算公式(11)中的bλ和Vλ,用^σ代替Vλ公式中的σ。计算λ*mse与λ*FLCIas在等式(12)中,并计算稳健方差估计^Vλ,rob=Pni=1a*λ、 iεinit,i,其中a*λ=w-Zπ*λ(w)- Zπ*λ) ′w.返回估计量^βλ*mse和CI^βλ*FLCI±cvαCBλ*FLCI/^V1/2λ*弗尔奇,罗伯·^V1/2λ*弗尔奇,罗伯。现在让我们在一系列评论中讨论实现选择以及程序的最优性和有效性属性。备注3.1(有效性)。作为初始残差估计^εinit,i,我们可以从Y对X的正则化结果回归中获取残差。我们在附录B.2中给出了所得CI渐近有效的条件。关键要求是最大林德伯格重量林德(a*λ) =max1≤我≤不*λ、 i/Pnj=1a*λ、 与估值器相关的jβλ相对于用于形成残差的估值器中的误差收缩得足够快。

18
大多数88 在职认证  发表于 2022-4-28 16:06:24
确保林德(a*λ) “小”可以防止估计器对某个特定的观测值施加太多的权重,因此中心极限t heorem的Lindeberg条件成立。这些条件是否适用于最优估计器通常取决于Pen(γ)的形式和C相对于n的大小*λ) 如果在特定样本中足够小,使正态近似能够很好地工作,则可以通过将λ上的等式(12)最小化,从而使Lind(a*λ) 当计算λ时,数值很小*FLCI。在其他情况下,这类似于诺克和罗特(2020年)以及贾文马尔和蒙塔·纳里(2014年)的提案。有关进一步讨论,请参见附录B.2。备注3.2(效率)。重量*λ*弗莱西安*λ*在异方差条件下,MSE不是最优的。通过在ε假设下导出最优权重,可以在原则上推广用于无约束估计的f可行广义最小二乘(FGLS)方法~ N(0,∑)(在预乘以∑后,简单地遵循上述分析)-1/2),并推导了当已知方差和高斯误差的假设被放弃时,插入∑估计的估计量和CI渐近最优的条件。Weinstead概括了在无约束环境下,使用Eicker-Huber-White(EHW)标准误差报告OLS的常用方法。最优权重a*λ是在同构假设下计算的,但我们使用稳健的标准误差来计算CIT,以确保其在违反该假设时的有效性。备注3.3(选择C)。根据推论2。1(iii),在形成CI时,不能使用数据驱动规则来自动选择C。

19
何人来此 在职认证  发表于 2022-4-28 16:06:28
因此,我们建议将变化C作为灵敏度分析的一种形式,并报告“br下降值”C*作为C的最大值,因此一些经验发现成立。在无法使用先验知识评估γ的合理值的情况下,可以将Pen(γ)的大小与其他量联系起来。一种可能性是使用约束笔(γ)在X上运行Y的正则回归≤ C和报告R(C)=1-Pni=1^εi,CPni=1(Yi-Y)作为C的函数,其中{εi,C}是该回归的残差,andY=nPni=1Yi。数量R(0)对应于回归中仅包含基线控制的Rin。然后,我们可以研究R(C)如何随C变化,从而将Pen(γ)与R的界限联系起来。这反映了经济学实证应用中的常见做法,即在加入R回归系数时,检验回归估计和R的大小如何变化(见Oster,2019年,进一步讨论和参考)。然而,我们注意到,由于上述不可能的结果,需要额外的假设来证明基于这种程序选择C是合理的。最后,可以形成一个较低的CI[^C,∞) 对于C,评估给定边界笔(γ)的合理性。我们在附录B中给出了这样一个CI。3对于Pen(γ)施加lpconstraint。此类CI可用作规格检查,以确保规则性参数C的选择值不太小。备注3.4(计算问题)。第二步涉及计算正则回归估计的解路径。现有的高效算法可以在以下情况下计算这些路径:l刑罚及其变体(Efron等人,2004年;Rosset和Zhu,2007年)。在下面l惩罚是,正则回归对m有一个闭合的值,因此我们的算法可以再次以计算高效的方式实现。对于其他类型的惩罚,等式中优化问题的凸性。

20
何人来此 在职认证  发表于 2022-4-28 16:06:33
(9) 我们还注意到,由于解决方案路径π*λ不依赖于C,它只需要计算一次,即使在灵敏度分析中考虑了C的多重选择。4收敛速度我们现在考虑CIs和效率界的渐近行为为n→ ∞. 对于easeof表示法,我们假设所有系数都是约束的,并将重点放在一些p的情况Pen(γ)=kγkP上≥ 1,且外壳笔(γ)=kZγ/√nk(参见示例2.1)。我们允许f或sequencesC=Cn用于笔上的bo und(γ),它可能会变为0或∞ 样本量,以及高维渐近,其中k=kn>> n、 我们考虑标准的“高维”设置,在设计矩阵X上放置条件,当i.i.d.在i上绘制i.i.d.时,这些条件以高概率保持,var((wi,z′i′)的特征值远离零且不完整。让q∈ [0, ∞] 表示p的H?older共轭,满足1/p+1/q=1。我们将证明,当Pen(γ)=kγkp时,最优线性FLCI在raten处收缩-1/2+Crq(k,n),其中rq(k,n)=k1/q/√n如果q<∞,√日志k/√n如果q=∞.. (14) 此外,对于p=1和p=2,我们将证明没有其他CI可以以更快的速度收缩。对于p=1,我们事实上将证明一个更强的结果,表明在结果和倾向评分回归中施加稀疏界限,除了Pen(γ)上的界限外,并没有帮助实现更快的速度,除非假设顺序的稀疏性大于Cnpn/log(k)(在蔡和郭(2017)中被称为“超稀疏”情况)。对于情况Pen(γ)=kZγ/√nk,我们将证明最优初始速率由n给出-当k>n时为1/2+C。在C=Cn不随n减小到零的情况下,这些速率需要p<2(因此q>2)才能在k/n时进行一致估计→ ∞.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 13:11