楼主: nandehutu2022
1594 48

[经济学] 正则化回归模型中的偏差感知推理 [推广有奖]

31
可人4 在职认证  发表于 2022-4-28 16:07:13
因此,我们可以在不改变优化问题的情况下,将β、~π(1)限制为一个紧集。为了显示引理中的第一个陈述,请注意βmodδ>0,因为设置π=0和β=δ/(2kwk)是可行的,并且-Zπmodδk>0,否则,通过将πmodδ乘以1,可以获得更大的β值-ηforη>0足够小。现在,如果Firststatement不成立,则会存在一个带Pen的!π(!π)≤ C/βmodδ使得kw-Z~πk≤千瓦- Zπmodδk- 对于足够小的ν>0。然后,让∧πη=(1- η) ~π,我们会-Z~πηk≤ 千瓦-Z~πk+ηkZ~πk≤ 千瓦-Zπmodδk-ν+ηkZπk≤ δ/(2βmodδ)-所以,对于足够小的η,kw- 对于足够小的η和Pen(∧πη),Zπηk将严格小于δ/(2βmodδ)≤ (1 - η) C/βmodδ<C/βmodδ。这是一个矛盾,因为通过设置π=~πη,它将允许β的值急剧增大。第二条语句紧跟其后,因为满足δ=Δλ的模量(18)中的约束条件的任意一对∧β,∧π,其中∧β>β*λ必须有千瓦- Z~πk<kw- Zπ*λk在保持约束笔(π)时*λ) ≤ tλ。现在我们证明定理2.1。在Armstrong和Koles\'ar(2018)的非标准化中,偏差方差优化估计的类^Lδ由(wβmodδ+Zγmodδ)′Y(wβmodδ+Zγmodδ)′w给出,其中我们使用eq。

32
kedemingshi 在职认证  发表于 2022-4-28 16:07:18
(26)Inramstrong和Koles\'ar(2018)在中心对称下计算该估计器的形式,引理D.1 Inramstrong和Koles\'ar(2018)计算导数ω′(δ),因为该问题与参数β=1,γ=0给出的ι具有平移不变性。给定λ和kw- Zπ*λk>0,它由Lemma得出。1对于引理中给出的Δλ,该估计量^LΔλ等于^βλ=a*λ′Y其中a*λ=w-Zπ*δ(w)- Zπ*δ) \'w,如理论2所定义。1.定理2.1中公式的最坏情况偏差来自这样一个事实,即在γ=-γmodΔλ=Ct-1λπ*λ由引理A.1 Inramstrong和Koles\'A r(2018)提出(或引理4在Donoho,1994年)。A.2推论2.1的证明引自Low(1995年)。特别是考虑一维子模型β∈ [-C/tλ,C/tλ],γ=-π*λβ. 设bλ=(w)- Zπ*λ) /kw- Zπ*λk,设B∈R(n)-1) 与bλ正交的正交矩阵。注意,在这个子模型中,B′Y=B′(w- Zπ*λ) β+B′ε=B′ε,不依赖于未知参数β,与B′λY无关。因此,b′λY~ N(β,kbλkσ)是该子模型中的一个有效统计量。根据Low(1995)的定理1,在这个子模型中,估计量^βλ=a*λ′Y=κb′λY,其中κ=kw-Zπ*λk/(w)-Zπ*λ) 在所有估计量δ(Y)中,w使supβvar(δ(Y))与upβ| Eβ[δ(Y)]- β|≤ (1 - κ) C/tλ=CBλ,同样,它最小化supβ| Eβ[δ(Y)]- β|在所有具有supβvar(δ(Y))的估计量中≤ κσkbλk=Vλ。最坏情况下的biasbiasΓ(^βλ)≤ 根据定理2.1,CBλ和方差(^βλ)=Vλ在整个模型中是相同的,结果如下。推论2.1的第(ii)部分直接来自Donoho(1994)。尤其是κ*MSE(X,σ,Γ)=supδ>0(ω(δ)/δ)ρN(δ/2,σ)supδ>0(ω(δ)/δ)ρA(δ/2,σ)≥ 0.8,其中ω(δ)在等式中定义。

33
大多数88 在职认证  发表于 2022-4-28 16:07:21
(18) 和ρa和ρn分别是有界正态均值问题Y中有效估计量之间和所有估计量之间的极大极小风险~ N(θ,σ),|θ|≤ τ、 定义了inDonoho(1994),最后一个不等式来自Donoho(1994)的等式(4)。最后,推论2.1的第(iii)部分来自Armstrong和Koles\'ar(2018)的推论3.3,其中包含κ*FLCI(X,σ,Γ)=(1)-α) E[ω(2)(z1-α- Z) )|Z≤ z1-α] 2minδcvαω(δ)2ω′(δ)-δω′(δ),其中Z~ N(0,1),ω(δ)在等式(18)中给出,并且由Armstrong和Koles\'ar中的引理D.1给出,因为该问题与参数β=1,γ=0,ω′(δ)=δ/[w′(w)给出的ι具有平移不变性- Zπmodδ)·ω(δ)]。当α=0.05时,普适下限b为0.717,遵循定理4.1 Inramstrong和Koles\'ar(2020b)。A.3理论证明4。1证明声称的上限适用于X∈ En(η),我们首先注意到,由于基于FLCI的n^βλ*FLCI比基于任何线性估计量a′Y的FLCI短,这有助于证明存在一系列权重向量a,使得最坏情况下的偏差和标准偏差以常数乘以n为界-p>1或n时的1/2(1+Ck1/q)-1/2(1+C)√当p=1时,记录k)。我们考虑了权重ai=viPnj=1vjwj,其中vi=wi-z′iδ,δ在E(η)的定义中给出。估计器的方差a′Y isPni=1vi(Pni=1viwi)≤ η-3/n.最坏情况偏差为pγ:kγkp≤C~a′Zγ=CkZ′akq=n-1/2Cn-1/2kZ′(w- Zδ)kqn-1|w′(w- Zδ)|≤ Crq(k,n)η,其中第一个等式后面是H¨older不等式,最后一个质量后面是En(η)的定义。这就产生了收敛速度n-1/2+Crq(k,n),如所述。对于第(ii)部分,通过类比推理,有必要考虑短回归估计量β=w′Y/w′w。该估计量的方差为σ/w′w≤ η-1σ/n。估计量的偏差为w′Zγ/w′w。根据Cauchy-Schwarz不等式,该量的绝对值以kw/w′wkkZγk=kZγ为界/√nk/pw′w/n≤ η-1/2C。

34
大多数88 在职认证  发表于 2022-4-28 16:07:25
这就产生了期望的收敛速度。A.4引理的证明4。1根据最佳线性预测器的正交性条件,我们得到E[wivi]=E[vi],其中vi=wi- z′iδ,根据假设从下方均匀地有界于k。因为E[wivi]从上方以Ewi<∞, 它遵循三棱角数组的大数定律,即npni=1wivi≥ η足够小时,概率接近1。类似地,nPni=1vi≤ 1/η表示足够大的η,根据三角形射线的大数定律。对于En(η)定义中的最后一个不等式,首先考虑p>1的情况,以便Q<∞. 然后我们有了Ek√nPni=1zivikqq=EPkj=1 | Pni=1vizij/√n | q≤ k·k byvon Ba hr(1965),其中k是一个常数,仅依赖于maxjE[|vizij | max{q,2}]的上界。应用马尔可夫不等式g得到所需的界。当p=1时,q=∞ 所以√nnXi=1ziviQ≥ η-1plog k≤kXj=1P√nnXi=1vizij> η-1plog k!,以2k exp为界(-K·η-2log k)=2k1-Kη-2通过Hoe fff ding’sinesequality对次高斯随机变量的某些常数K(Vershynin,2018,定理2.6.3)。根据需要,通过使η变小,可以使其在k中均匀地变小。A.5理论证明4。2根据推论2.1(iii),必须给出R的界*FLCI(X,C)。我们首先注意到,任何没有确定的最坏情况偏差的估计量a′Y必须满足a′w=1,这意味着1≤ kak·kwkby利用Cauchy-Schwarz不等式,使方差σa′a有界于σ/kwk≤ ση-1/n。因此,有必要证明最坏情况下的偏差是由常数乘以C(k/n)1/2(对于(i))或常数乘以C(对于(ii))限定的。对于第(i)部分,设∧γ=-Cηpk/nZ′(Z′Z)-1w。观察Pen(γ)=C(k/n)ηpw′(Z′Z)-1w≤Cη·(最大eig(Z′Z/k)-1) 1/2pw′w/n≤ C.设∧β=Cηpk/n,然后wβ+Zγ=0。

35
mingdashike22 在职认证  发表于 2022-4-28 16:07:29
因此,~β,~γ在观测上等同于参数向量β=0,γ=0,这意味着任何CI的长度必须至少为Cηpk/n。第(ii)部分,后面是一个类似的参数,其中~γ=-Z′(ZZ′)-1w·Cη1/2和)β=Cη1/2。A.6理论证明4。3由于c·n的下限-1/2根据有限维参数的标准效率界限(例如,取δ=γ=0的子模型),我们显示了下限eθ*^χ ≥中国·c·√日志k/√n、 为了证明这一点,我们遵循蔡和郭(2017,定理3)以及贾文马尔和蒙塔纳里(2018,命题4.2)基本相同的论点,注意到对于下限中使用的分布,对kδk和kγk的要求成立。在agiven参数向量θ=(β,γ′,δ′,σ,σv)下,数据(Yi,wi,zi′)为i.i.d.正态,均值为零,方差矩阵∑θ=σ+β(σv+kδk)+2βδ′γ+kγkβ(σv+kδk)+γ′δβδ′+γ′β(σv+kδk)+γ′δv+kδδ′βδ+γδIk.设fπ表示参数服从先验分布π时数据{Yi,wi,zi}ni=1的分布,设χ(fπ,fπ)表示先验分布π和π的这些分布之间的卡方距离。根据引理1 inCai和Guo(2017),它有助于在参数空间Θ(Cn,Cn·Kpn/log k,ηn)上找到先验分布π,使得π在β=β1上的概率为1,对于一个|β1,n |从下方以常数Cn为界的序列√日志k/√n,这样χ(fπ,fπ)→ 0,其中π是概率1在θ上的分布*在定理陈述中给出。为此,我们首先注意到,我们可以假设σ=σv,0=1,而不丧失一般性,因为将Yi和Wi除以σ和σv,0会得到同一个模型,其参数乘以常数,仅限于σ和σv,0。设π由集合上δ的一致先验定义,其中kδk=s和每个元素δj∈ {0,ν},其中s和ν将在下面确定。

36
kedemingshi 在职认证  发表于 2022-4-28 16:07:34
然后,我们将剩余参数设置为δ:β=-kδk/(1)- kδk),γ=(1- β) δ,σv=1- kδkσ=(1)- 2kδk)/(1- kδk)。我们注意到kδkis常数在这个先验下,所以β是所需的aunit点质量。这导致了变异矩阵∑θ=10δ′01δ′δIk对于支持π的θ和∑θ*= 点质量π下的Ik+2。现在它来自eqs。(118)和(119)inJavanmard和Montanari(2018)(这是Lemmas2和3在Cai和Guo(20 17)中的应用)认为χ(fπ,fπ)≤ 埃斯克-s1+sk(e4nν)- 1)s-1.我们设置ν=(√cν/2)·√日志k/√对于一些cν>0,因此e4nν=kcν。然后我们将s设置为小于Cn/ν=(2Cn)的最大整数/√cν)·(√n/√日志k)。条件是≤pk/n·k-■η对于某些■η>0,则保证≤ kψ表示一些ψ<1/2,因此上述显示以ek2ψ为界-1(1-kψ-1)-1.1+sk2ψ-1(kcν)- 1)s-1.如果选择足够小的cν,使2ψ+cν<1,则这会根据需要收敛到零。最后,我们注意到,在π下,kδk=(1+o(1))sν=(1+o(1))Cnν=(1+o(1))·Cn(√cν/2)·√日志k/√n和|β|=kδk(1+o(1))=(1+o(1))Cn(√cν/2)·√日志k/√n、 因此,我们得到了Cn·c的一个下界·√日志k/√n根据需要。附录B附加结果我们提供了一些附加结果,这些结果对于未知误差方差的实际实施以及评估假设Pen(γ)的合理性非常有用≤ C.附录B。1考虑了全局估计回归函数的问题,并在此问题中导出了正则回归估计的性质。附录B。2.将此估计器用作初始估计器,用于构造具有未知误差方差的标准误差的残差。附录B。3表示C的较低CI,可用于评估假设Pen(γ)的合理性≤ C.在本节的大部分内容中,我们主要关注Pen(γ)=kγkp,带k的情况→ ∞ 和k/n→ 0.我们使用以下符号。

37
大多数88 在职认证  发表于 2022-4-28 16:07:37
设θ=(β,γ′)和X=(X,X),其中X=(w,Z)和X=Z。我们相应地分配θ,θ=(β,γ′)和θ=γ。设HX=X(X′X)-1X′和MX=I- HXdenote在X及其正交补的列空间上的投影。对于本节中的一些结果,我们考虑了εi的分布未知且可能为非高斯分布的可能性,这需要一些额外的符号。我们考虑了ε在一类Qnof分布上的覆盖率,我们用Pθ,qa和Eθ,qt来表示根据Q绘制数据Y时的概率和期望∈ Qnandθ=(β,γ′)∈ R×Γ,我们使用符号pq和eqf表示只依赖于ε而不依赖于θ的表达式。在每个Q下,εi独立于i∈ Qn。B.1整体估计回归函数考虑θ的正则化回归估计,由^θ=argminθkY给出-Xθk/n+λkθkp。(19) 我们首先给出^θ的一个基本性质,遵循标准参数(见B–uhlmann and van de Geer(2011年,第6.2节)和van de Geer(2000年,第10.1章)),并得出该估计的收敛速度f。在附录的其余部分,使用估计器构造具有未知误差分布的可行CI,并为正则性参数C.引理B.1构造一个较低的CI。如果k2x′MXεkq/n≤ λ、 那么kmxx(^θ)- θ) k/n+(λ)- λ) k^θkp≤ (λ+λ)kθkp。证据我们可以把目标函数写成askHXY-Xθ- HXXθk/n+kMXY- MXXθk/n+λkθkp。对于任何θ,目标的第一部分可以通过取θ=(X′X)设置为零-1X′Y-(X′X)-1X′Xθ。因此,^θ=argminθkMXY- MXXθk/n+λkθkp,其中θ=(X′X)-1X′Y+(X′X)-1X′X^θ。

38
nandehutu2022 在职认证  发表于 2022-4-28 16:07:40
这意味着HXε=HXY- HXX′θ=HXX′(^θ)-θ) ,所以kx(^θ)-θ) k/n=kHXεk/n+kMXX(^θ)- θ) k/n,(20)利用^θ得到的目标值低于真实参数值θ这一事实,我们得到了lpversion是什么l案例B–uhlmann和van de Geer(2011,Lemma6.1)术语“基本不等式”,kMXX(^θ)-θ) k/n+λk^θkp≤ 2ε′MXX(^θ)-θ) /n+λkθkp。通过H¨older不等式,我们得到了2ε′MXX(^θ)-θ) ≤ k2X′MXεkqk^θ-θkp,所以在t轴上k2X′MXεkq/n≤ λ、 我们有Kmxx(^θ)-θ) k/n+λk^θkp≤ λk^θ- θkp+λkθkp≤ λk^θkp+(λ+λ)kθkp,这意味着结果。我们现在使用这个结果来推导公式(19)中正则回归估计的收敛速度,以估计公式(19)中的回归函数l丧失为了简单起见,我们对满足某些充分条件的惩罚参数使用固定序列。在实践中,交叉验证等数据驱动的方法可能很有吸引力。我们讨论了另一种基于RemarkB中的中度偏差的可能性。1见下文附录B.3。我们的目的是提供简单的充分条件,使该估计器能够用于辅助假设,如标准误差构造,我们将对此类扩展的分析留给未来的研究。定理B.1。假设对于某些η>0,对于所有n和所有Q∈ Qn,当p>1a和PQ(|εi |>t)时,我们有eq[|i | max{2+η,q}]<1/η≤ 2经验(-ηt)当p=1时。假设mxx的元素在n上均匀地由某个常数kxu限定。设^θ为eq.(19)w i thλ=Knrq(k,n)中定义的回归估计量,其中Kn→ ∞ 式(14)中给出的andrq(k,n)。然后是supθ∈Rk+1supQ∈QnPθ,QkX(^θ)-θ) k/n>Kn(k/n+2kθkprq(k,n))→ 0,证据。莱玛。1和引理B.2,我们有kMXX(^θ)-θ) k/n≤ 2Knkθkprq(k,n),概率在θ上一致逼近1∈ Rk+1和Q∈ Qn。

39
可人4 在职认证  发表于 2022-4-28 16:07:45
此外,由于秩为(k+1)/n且等式为εε′的轴幂等元是对角的,且元素在Q上有界∈ Qn,我们有EQkHXεk/n≤对于某些常数K,Kk/n。结果遵循马尔可夫不等式和等式(20)。引理B.2。在定理B.1的条件下,对于序列Kn→ ∞, 我们有∈QnPQ(k2X′MXεkq/n≤ Knrq(k,n))→ 1.证据。设xij=(2MXX)ij。for q<∞, 我们有eqk2x′MXεkqq=EQkXj=1nXi=1xijεi!Q≤ k·k·nq/2对于一些仅依赖于η、q和KX的常数k t,byvon Ba hr(1965)。结果随后是马尔可夫不等式。对于q=∞, 我们有k2X′MXεkq/n>Knplog k/√N= PQmaxjnXi=1xijεi/n>knlog k/√N其中,对于某些K>0,以2kexp为界(-~K·Knlog K)=2k1-~K·Kn→ 0,由Hoe ff ding’sinequality提供,适用于亚高斯随机变量(Vershynin,2018,Thm.2.6.3)。B.2标准误差我们考虑正文中考虑的形式为^β=a′Y的线性估计的标准误差。我们假设权重a是非随机的:它们可以依赖于X,但不依赖于Y。设θ为θ的估计,设ε=Y- X^θ。考虑估计器^V=Pni=1ai^εiofVQ=varQ(a′Y)=Pni=1EQεi。允许权重a依赖于n,因此a,anis是一个三角形数组,而不是一个序列,但我们在符号中保留了这一点。我们考虑可行偏差感知CI^β±cvα(偏差Γ(偏差β)/p^V)·p^V的覆盖范围,其中偏差Γ(偏差β)是(6)中给出的参数空间Θ=R×Γ的参数θ=(β,γ′)的最坏情况偏差。我们首先给出了任意参数空间Θ的一般结果。然后我们专门研究Θ=R×Rk×{γ:kγk的情况≤ Cn}和残差εi是使用附录B中的正则化回归形成的。1.定理B.2。

40
nandehutu2022 在职认证  发表于 2022-4-28 16:07:50
假设,对于某些η>0,η≤ EQεi和EQ |εi | 2+η≤ 1/η表示所有i和所有Q∈ Qn,还有√ncnmax1≤我≤nai/Pnj=1aj→ 0和infθ∈Θ,Q∈QnPθ,Q(kX(^θ)- θ) k≤(中国)→ 1对于某些序列CNCN/√它从一个角落跳了出来。然后,对于任何δ>0,infθ∈Θ,Q∈QnPQ|(^V)- VQ)/VQ |<δ→ 1.此外,lim infinifθ∈Θ,Q∈QnPQβ ∈n^β±cvα(偏差Γ(^β)/p^V)·p^Vo≥ 1.- α. (21)证据。我们有^V-VQVQ=Pni=1ai(εi)-εi)VQ+Pni=1ai(εi)- 式εi)VQ。设∧bi=ai/Pnj=1ai。第二项以| Pni=1bi(εi)为界-式εi)|/η。该量的绝对1+η矩由常数时间pni=1b1+ηi·1/η1+ηbyvon Bahrand-Esseen(1965)确定。这是以max1为界的≤我≤nbηi·Pni=1bi/η1+η=max1≤我≤n~bηi/η1+η→ 0.第一项以max1为界≤我≤n/bi/ηtimesnXi=1 |εi-εi |=nXi=1 |εi+εi |·|εi- εi|≤ k^ε+εkk^ε- εk≤ (k^ε)- εk+2kεk)k^ε- εk对于一些只依赖于η的常数k,我们有2kεk≤ K√n的概率在Q上接近一个统一∈ Qn。自k^ε- εk=kX(^θ)-θ) k≤ Cn因此,上述显示以(K)为界限√n+cn)·n概率在θ上接近一个单位∈ Θ,Q∈ Qn。在cn的条件下,对于任何δ>0,infθ∈Θ,Q∈QnPQ(^V)- VQ)/VQ< δ→ 1.CI的覆盖范围随后来自TheoremF。1 Inramstrong和Koles\'ar(2018),通过使用权重和力矩边界来验证Lindeberg条件(见引理F.1 Inramstrong和Koles\'ar(2018))的中心极限定理条件。L ind(a)=max1的条件≤我≤nai/Pnj=1可以根据具体情况进行检查,也可以通过在确定最佳权重的优化问题中加入Lind(a)的界限来直接施加。在后一种情况下,我们注意到,通过定理4的证明。1、在一定条件下的最优利率lPconstraint可以通过一个线性FLCI实现,其权重与wi成比例-z′iδ,其中pni=1(wi-z′iδ)从下方以常数乘以n为界。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 13:28