楼主: nandehutu2022
1594 48

[经济学] 正则化回归模型中的偏差感知推理 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-4-28 16:06:36
在p=1的情况下,我们可以允许k与n成指数增长,而在1<p<2的情况下,允许k/n→ ∞k在n中以多项式r增长,n依赖于p→ 0规则:即使一个系数被限制在远离零的范围内,这表明在“高维”设置中取p<2,p=1可提供最佳速率条件。从这些结果还可以看出,如果Cn=C不随n减小到零,则偏差项可能在符号上占主导地位,因此即使在大样本中,也有必要明确说明CI构造中的偏差。4.1上界为了说明结果,给定η>0,让En(η)表示存在δ的设计矩阵X的集合∈ Rksuch thatnkw-Zδk≤η、 西北′(西)- Zδ)≥ η、 nkZ′(w- Zδ)kq≤rq(k,n)η。让R*FLCI(X,C)=2 cvα(CBλ)*FLCI/V1/2λ*FLCI)·V1/2λ*FLCIdenote最佳线性长度LCI。定理4.1。(i) 假设Pen(γ)=kγkp。存在一个仅依赖于η的有限常数Kη,使得R*FLCI(X,C)≤ Kηn-p>1时为1/2(1+Ck1/q),R*FLCI(X,C)≤Kηn-1/2(1+C)√p=1 f或任意X的对数k)∈ En(η)。(ii)假设Pen(γ)=kZγ/√nk。存在一个仅依赖于η的有限常数Kη,使得R*FLCI(X,C)≤ Kη(n)-1/2+C)对于任何X,η≤ w′w/n。由于没有任何控制的短回归获得了C阶的偏差,因此定理的第二部分如下。第一部分表明,如果高阶条件X,则收敛速度的上界与等式(14)中的上界匹配∈ En(η)成立。下一个引理表明,当wi,zi从满足矩和协变量的温和条件的分布中提取i.i.d.时,这种高级条件很可能成立。引理4.1。假设wi,zia在i上画i.i.d.,让δ=argminbE[(wi- z′ib)]z′iδ是wi的总体最佳线性预测误差。

22
kedemingshi 在职认证  发表于 2022-4-28 16:06:39
支持线性预测误差E[(wi-z′iδ)]k离零有界→ ∞, E[wi]<∞, 而那个苏佩【|(wi)-z′iδ)zij | max{2,q}]<∞ 当p>1时,对于某些c>0时,p(|)(wi- z′iδ)zij |≥ (t)≤ 2经验(-当p=1时,对于所有j。然后,对于任何)η>0,存在η,使得X∈ 概率至少为1的En(η)- ■η对于足够大的n.4.2下限,当p=2或p=1.4.2.1 p=2As时,我们现在显示等式(14)a中的速率在第4节中的上限为锐。1.我们导出了当设计矩阵X在某个集合中时成立的一个界,然后证明了当wi,zia从满足一定条件的分布序列中抽取i.i.d.时,该集合具有很高的概率。我们关注案例k≥ n、 Leten(η)表示设计矩阵X的集合,使得η≤西北≤ η-1,最小eig(ZZ′/k)≥ η、 式中,eig(A)表示方阵A的特征值集。定理4.2。设^β±^χ为覆盖率至少为1的CI- Pen下的α(γ)≤ C.(i)如果pen(γ)=kγk,则存在一个常数Cη>0,仅取决于η,使得β=0,γ=0下的预期长度满足E0,0[^χ]≥ cηn-1/2(1+Ck1/2)表示任意X∈eEn(η)。(ii)如果Pen(γ)=kZγ/√nk,在η上存在一个常数cη>0d,使得β=0,γ=0下的预期长度满足E0,0[^χ]≥ cηn-任何X的1/2(1+C)∈eEn(η)。如果zi是i.i.d.除以i,那么EZZ′/k等于n×n单位矩阵乘以scalarkPkj=1E[zij]。因此,只要协变量的二阶矩从下有界,关于ZZ′/k最小特征值的条件将保持矩阵Z′Z上的欠集中条件。在这里,我们陈述了一个特殊情况的结果,其中zij是i.i.d.正常的,这是Donoho(2006,引理3.4)的直接结果。引理4.2。假设wiare i.i.d.o v er i和zijare i.i.d。

23
mingdashike22 在职认证  发表于 2022-4-28 16:06:44
i和j上的n正规。然后,对于任何|η>0,存在η>0,使得X∈概率至少为1的eEn(η)- 一旦n和k/n足够大,η。4.2.2 p=1我们现在考虑p=1的情况,如例2所示。2.与在高概率的固定设计环境中(如第4.1节和第4.2.1节)对X施加条件相比,我们直接考虑随机设计环境,并且在要求覆盖CI时,我们不以X为条件。这使得我们可以通过证明r在定理中的存在来加强我们定理的结论。1是尖锐的,即使对wigiven Zi加上稀疏性和l该模型中系数的界。我们引入一些额外的符号来覆盖随机设计设置,我们仅在本节中使用。我们考虑一个随机设计模型y=wβ+Zγ+ε,ε| Z,w~ N(0,σIn),w=Zδ+v,v | Z~ N(0,σvIn),zij~ N(0,1)i.i.d.在i,j上。当Y,X遵循这个参数为(β,γ′,δ′,σ,σv′)的模型时,我们使用Pθ和Eθ表示概率和期望。设σ>0和σv,0>0,并设Θ(C,s,η)表示参数集θ=(β,γ′,δ′,σ,σv),其中|σ-σ| ≤ η、 |σv-σv,0 |≤ η、 kγk≤ C、 kδk≤ C、 kγk≤ s和kδk≤ s、 定理4.3。设^β±^χ为满足Pθ(β)的CI∈ {^β ± ^χ}) ≥ 1.-当reα<1/2时,所有θi nΘ(Cn,Cn·Kpn/logk,ηn)的α。补充资料→ ∞, Cn√原木k/n→ 0和Cn≤pk/n·k-η对于一些η>0的情况。然后,存在c,如果K足够大,ηn→ 0 sl owlynough,参数向量θ下此CI的预期长度*由β=0,γ=0,δ=0,σ=σ,σv=σv,满足度Eθ给出*[^χ] ≥ c·n-1/2(1+Cn)√当n足够大时,记录k)。理论4。3与蔡和郭(2017)以及贾文马尔和蒙塔纳里(2018)的观点类似,他们为仅采用稀疏边界的情况提供了类似的边界。

24
mingdashike22 在职认证  发表于 2022-4-28 16:06:47
根据定理4.3,施加稀疏性不允许在仅使用l束缚kγk≤ Cn(从而在理论4.1中获得了大鼠e),除非施加的顺序稀疏性大于Cpn/log k。我们在下一节中提供了与施加稀疏性的CI的进一步比较。5与稀疏约束的比较几位作者使用“双套索”估计量考虑了β的CI(见Belloni等人,2014年;Javanmard和Mont anari,2014年;van de Geer等人,2014年;Zhang和Zhang,2014年)。这些CI在参数spaceeΓ(s)={γ:kγk下有效≤ s} ,其中kγk=#{j:γj6=0}是l“norm”表示γ的稀疏性,相对于n和k的正弦增量足够慢。因为kγkis不是真正的范数或半范数(它是非凸的),所以这不属于我们的设置范围。在这里,我们讨论了与我们在下推导出的最优估计的一些联系l这些双套索估计量的约束(第5.1节),我们提供了一个讨论,比较了我们基于这些估计量的方法(第5.2节)。5.1双套索和最优估计量之间的联系l约束在Pen(γ)=kγk(例2.2)的情况下,解π*λ至(9)是w对Z的倾向评分回归中的套索估计,我们的估计量(10)使用该套索回归的残差。这与最近提出的“双套索”估计器有关,该估计器用于在γ的稀疏性约束下形成β的CIS(参见Belloni等人,2014年;Javanmardand Montanari,2014年;van de Geer等人,2014年;Zhang and Zhang,2014年)。

25
大多数88 在职认证  发表于 2022-4-28 16:06:50
具体而言,我们关注Zhang和Zhang(2014)中的估计量,其由^βZZ=^βlasso+(w)给出- Zπ*λ) ′(Y)- w^β套索- ^γ套索(w)- Zπ*λ) w,式中,β套索,γ套索通过在X上回归Y得到套索估计:β套索,γ套索=arg minβ,γkY-wβ-对于某些惩罚参数λ>0,Zγk+|λ(|β|+kγk)。备注5.1。不是说^βzzo在Y中是非线性的,因为套索估计的非线性^β套索^γ套索,这与非凸参数空间的效率目标一致(15)。相反,推论2.1表明,在凸参数空间Γ={γ:kγk≤C} (10)中的估计量^βλ仅在won Z的倾向评分回归中使用lasso,在所有估计量中已经是非常有效的,因此从Y对X的lasso回归或使用其他非线性估计量中获得的实质效率收益没有进一步的作用。为了进一步了解这些估计器之间的联系,我们注意到张和张(2014)通过formk^γ套索的Bounds激励了他们的方法- γk≤~C,其中~C=constsplog k/√n、 (16)根据描述设计矩阵X规律性的某些“相容性常数”,该常数很可能保持不变(见B–uhlmann和vande Geer,2011,定理6.1,以及周围讨论中的参考文献)。这表明了初始估计^βlassoby估计^β=β-^β套索在回归中Y=w(β-^β套索)+Z(γ- ^γ套索)+ε=w)β+Z)γ+ε,式中)Y=Y-β套索- Z^γ套索。试探性地,我们可以将界(16)视为一个约束tk~γk≤关于未知参数γ=γ- ^γlassoand搜索∧β=(β)的最优估计量-^β套索)在这种约束下。应用定理2中导出的最优估计。1然后建议估算β-^β拉索维思(w- Zπ*λ) ′Y(w)- Zπ*λ) w.将该估计值添加到张和Z hang(2014)提出的^βlassogives估计值中。

26
mingdashike22 在职认证  发表于 2022-4-28 16:06:54
尽管Zhang和Zhang(2014)将他们的方法作为一种可能的方法来修正初始估计值^β拉苏界(16),但上述分析表明,他们的修正实际上与在数值上优化该修正的方法相同。使用界(16)可以得出^βZZ- β=b+a*λ′ε式中*λ=(w)- Zπ*λ) (w)- Zπ*λ) 在以下条件下,考虑最佳重量:l约束k~γk≤~C,g存在于理论中。1.此外,|b|≤~CBλ,其中Bλ在定理2.1中给出,C在(16)中给出,随机项a的方差*λ′ε由定理2中的Vλ给出。1、使用类似于用于验证理论的参数4。1,由此得出∧CBλ/√Vλ以常数乘以s(logk)为界/√n、 因此,只要这个项收敛到零,就可以忽略大样本中的偏差。这导致了张和张(2014)提出的CI,它采用了F{m^βZZ±z1-α/2^V1/2λ},(17),其中^Vλ是方差Vλ的估计。我们使用术语“double la sso CI”来指代该CI,以及相关CI,如inBelloni等人(2014)提出的CI;贾文马尔·安德蒙塔纳里(2014);van de Geer等人(2014年)。备注5.2。为了避免不得不假设s(对数k)/√N→ 0原则上,Javanmard和Montanari(2014)提出的估计器可以执行这种形式的数值优化,但约束(16)被|β套索上的约束所取代- β|+k^γ套索- γk。

27
nandehutu2022 在职认证  发表于 2022-4-28 16:06:57
因此,定理2.1表明,对Javanmard和Montanari(2014)中使用的约束进行修改后,yie Lds的估计量与Zhang和Zhang(2014)相同。扩展我们的方法和上述分析,以形成有效的偏差感知CI,即{^βZZ±[~CBλ+z1-α/2^V1/2λ]}不幸的是,在(16)中找到一个足够精确的可计算常数C,从而在实践中产生有用的界限似乎很困难,尽管这是未来研究的一个有趣领域。5.2我们的方法与基于双套索刺激的CI的比较何时应该使用双套索CI,何时应该使用本文中的方法?原则上,这个过程以一个人愿意做出的先验假设为结束,不管这些假设是由一个稀疏边界还是一个凸惩罚函数来最好地捕捉,比如l或l标准在许多情况下,可能很难激发回归函数具有稀疏近似的假设,而系数大小的上界可能更合理。我们提出的CI和估计器的一个关键优势是,在已知误差方差的固定设计高斯模型中,它们具有尖锐的细节、简单的最优性和覆盖保证。虽然这是一个理想的设置,但最坏情况下的偏差计算不依赖于误差分布,并且在非高斯、异方差误差下保持不变。我们的方法直接解释了估计量的潜在有限样本偏差,而不是依赖于偏差项中某些常数收敛到零的“渐近承诺”。这种方法的一个缺点是,我们的CI需要明确选择正则参数C,以形成“偏差感知”CI。相比之下,基于双拉索刺激的CIs不需要明确选择规则性(在本例中为稀疏s),因为它们忽略了偏差。

28
kedemingshi 在职认证  发表于 2022-4-28 16:07:00
这是在s增长比s增长更慢的渐近条件下证明的√n/logk,这导致^βZZMo re的偏差比其标准偏差下降得快。因此,我们可以说公式(17)中的CI是“渐近有效的”,而不明确指定稀疏指数s:我们只需要做出一个“渐近承诺”,它增长得足够慢。然而,在有限的样本环境下,很难评估这种渐近承诺。事实上,如Li和M¨uller(2020)所示,即使在相对稀疏的环境中,双套索CI也会导致有限样本的欠平均。为了确保等式(17)中CI的良好样本覆盖率,需要确保实际的样本使用略微保守的方法,即添加和细分绑定的CBλ,而不是使用等式(7)中的临界值cvα(CBλ/^V1/2λ),因为βzz的“偏差”项通过第一步估计与ε相关。相对于估计器的标准偏差,样本偏差可以忽略不计。由于任何一个偏差都取决于稀疏指数s(如等式(16)中的界限),这让我们回到必须指定s的状态。因此,忽略偏差的CI,例如基于双套索估值器的常规CI,无法避免指定s或C的问题:他们只会在符号承诺中隐式地做出这样的选择。这些问题在此类CI的渐近分析中正式出现。特别是,双套索CI需要“超稀疏”渐近区域s=o(√n/logk),并且它们在“适度稀疏”区域中渐近隐藏,其中s的增加速度比s的增加速度慢>>√n/log k。事实上,上述定理4.3以及Cai和Guo(2017)和Javanmard和Montanari(2018)的结果表明,如果允许适度稀疏的区域,则不可能避免显式指定s。

29
mingdashike22 在职认证  发表于 2022-4-28 16:07:04
在光谱的另一端,在“低维”区域<< n、 基于长回归,双套索CI与通常的CI在症状上等价。因此,当目标是使用关于γ的先验信息来改善基于长回归的CI时,不能使用doublelasso CI(例如,Muralidharan等人,2020年),即使s足够小,在事先了解s的情况下可以保证这种改善。相比之下,我们的方法最佳地结合了界C,而不考虑渐近状态。附录A证明该附录为正文中的所有结果提供了证明。A.1理论证明2。1为了证明定理2.1,我们首先解释了我们的结果如何运用inDonoho(1994年)、Low(1995年)和Armstrong and Koles\'ar(2018年)进行一般设置。在Armstrong和Koles\'ar(2018)的注释中,(β,γ′)起着参数f的作用,相关函数由L(β,γ′)=β和K(β,γ′)=wβ+Zγ给出。参数空间r×Γ是中心对称的,因此连续性模量(公式(25)Inramstrong和Koles\'ar,2018)由ω(δ)=supβ,γ2βs.t.kwβ+Zγk给出≤ δ/2,Pen(γ)≤ C.使用代换π=-γ/β,我们可以写成ω(δ)=supβ,π2βs.t.βkw- Zπk≤ δ/2,βPen(π)≤ C.(18)设βmodδ,γmodδ和πmodδ=-γmodδ/βmodδ表示该问题存在时的解决方案。在Armstrong和Koles\'ar(2018)的注释中,(βmodδ,γmodδ′)起到了g的作用*δ、 和溶液(f*δ、 g*δ) 满足f*δ= -G*δ= -(βmodδ,γmodδ′)的中心对称性。这个优化问题显然与等式(9)中的问题有关:我们想- Zπ和Pen(π)很小,因此β的la r ge值满足(18)中的约束。下面的引理将连接形式化。引理A.1。如果存在π∈ 使得w=Zπ,Pen(π)=0,那么ω(δ)=∞ 无论如何≥ 0

30
可人4 在职认证  发表于 2022-4-28 16:07:08
否则,(i)对于任何δ>0,模问题(18)有一个解βmodδ,πmodδ与βmodδ>0。对于tλ=C/βmodδ=2C/ω(δ),该解πmodδ也是具有优化目标kw的惩罚回归(9)的解-Zπmodδk=δ/(2βmodδ)=δ/ω(δ)>0;(ii)对于任意tλ>0,惩罚回归问题(9)有一个解π*λ. 设置β*λ=C/tλ和Δλ=2β*λkw-Zπ*λk=(2C/tλ)kw-Zπ*λk,对β*λ, π*λ在δ=Δλ时解决模量问题(18),优化目标ω(Δλ)=2C/tλ,因此长为s kw- Zπ*λk>0。证据如果存在π∈ 当结果立即出现时,w=Zπ,Pen(π)=0。假设不存在这样的π。首先,我们证明问题(9)有一个解决方案。设G(0)表示向量π的线性子空间∈ 使Zπ=0,Pen(π)=0,设G(1)为子空间,使G=G(0)⊕ G(1),这样我们就可以写出π∈ G唯一为π=π(0)+π(1),其中π(0)∈G(0)和π(1)∈ G(1)。注意,Zπ=Zπ(1),并且,两次应用trπ不等式,Pen(π(1))=Pen(π(1))- 笔(-π(0)) ≤ Pen(π)≤ Pen(π(0))+Pen(π(1))=Pen(π(1)),所以that-tPen(π)=Pen(π(1))。因此,问题(9)可以写成π(1)∈ 仅限G(1)。这个优化问题的水平集是封闭的,并且是通过半模笔的连续性来封闭的(Goldberg,2017),因此它有一个解,这也是原问题的一个解。类似地,为了证明问题(18)有解,请注意β的可行值由一个常数乘以最大{kw的最小值的倒数来限定- Zπk,Pen(π)}在π上,这是严格正的,由Pen(π)的连续性决定,并且事实上不存在最大{kw的π- Zπk,Pen(π)}=0。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 18:57