楼主: nandehutu2022
1600 32

[量化金融] 从泛化角度看模型选择的一致性 [推广有奖]

11
kedemingshi 在职认证  发表于 2022-5-25 08:45:27
Vapnik和Chervonenkis(1971a)表明,SRM保证SRM选择的最小GE以给定的速率收敛到种群中的最小GE,如定理1所示。这里,我们将SRM选择的模型命名为bSRMand∧作为备选模型的空间。引理2。(Vapnik和Chervonenkis,1971a)。SRM提供了分类模型中VC维度不同于p的近似值,参见Vapnik和Chervonenkis(1974)。上面的跳跃属于通用电气:RHS属于(4) 培训错误:1stRHS学期属于(4) GE信心:第2个DRHS学期属于(4) 复杂性属于这个模型(VC维度)推广/培训错误图1:VC不等式和结构风险最小化Rnt序列(bSRM | Xt,Yt)收敛到最小泛化错误Rmin=infb∈∧ZLoss(b | X,Y)dF(X,Y),渐近收敛速度v(nt)=rnt+τsh ln(nt)nt,iflimnt→∞τh ln(nt)nt=0,Fx,yX,Yτ1<p,τ>supb∈∧[R(损耗(b | X,Y))pdF(X,Y)]1/pZLoss(b | X,Y)dF(X,Y),and Rnt=Rnt(bSRM | Xt,Yt)- 免疫纳米荧光微球∈∧ZLoss(b | X,Y)dF(X,Y)。VC维数对于SRM是至关重要的,因为它用于构造泛化误差的上界。

12
nandehutu2022 在职认证  发表于 2022-5-25 08:45:31
已实施SRM,以减少分类中的过度匹配,计算VC维度。统计研究人员忽略了上限,因为经验GE和实际GE不同,特别是在有限样本中,VC维度仅适用于包括线性回归在内的3种模型。经验GE和实际GE之间的准确性、收敛速度和分歧符合以下定理,该定理说明了有限样本和渐近情况下经验GE最小值和结构风险最小值之间的关系。定理1。sup | Rnsb-Rb | P→经验GE持有的bEsseen界概率至少为$(1-/nt),$ ∈ (0,1)。Rns(b | Xs,Ys)6 M+,(5)其中Rns(b | Xs,Ys)是测试集上b的经验风险,M=Rnt(b | Xt,Yt)(1-√),=p√2·τ(E[损失(yi,bm(xi,btrain))]))p√1.- $ · n1型-1/ps,其中p是严格大于1的数字,τ已在引理2中定义。因此,我们立即得出以下推论。推论1。基于定理1,asen→ ∞经验GE极小化和结构风险极小化收敛到相同的极限。定理1和推论1为研究模型复杂性的控制奠定了基础,包括使用Lasso作为经验GE极小化,并且还证明,从无分布和无模型的角度来看,SRM渐近等价于经验GE极小化。通过使用(5)中的界限,可以量化SRM和经验GE最小化之间的差异,也可以得出SRM和经验双子化之间差异的置信界限。模型选择,尤其是套索。如附录2中的CV Lasso算法所示,Lasso为每个λ返回一个向量Bλ。λ的较大值映射到一个较小的ERVC维度horp,称为模型的“容许结构”(Vapnik和Chervonenkis,1971b)。

13
能者818 在职认证  发表于 2022-5-25 08:45:34
在Lasso返回的模型列表中,每个差异(VCdimension)参数化了一个泛化错误。通过从{bλ}中选取经验GE最小的模型,SRM和经验GE最小化都保证了Lasso选择的模型具有最好的泛化能力。3、套索模型选择的泛化能力和一致性第2节表明,经验GE最小化减少了过度拟合,这意味着估计值对样本外数据的泛化误差较低。在本节中,我们将在带有ANL惩罚的线性回归上实现经验GE极小化。我们展示估计器空间 通用电气空间有限的Samplessymptoticglobally最小的GE(唯一提供bythe公司符合事实的DGP)最小通用电气amongall公司交替序列DGPLasso公司担保估计员byCV‐套索算法命题1托勒姆图2:过度装配问题的验证策略和控制概述。此外,样本内和样本外绩效之间的权衡并不影响一致性。我们还讨论了有限样本与惩罚极值估计的渐近性质之间的关系。证明一致性的传统方法是通过分析训练集asn中极值估计量的性质→ ∞. 然而,要控制训练集和测试集的匹配和。因此,我们根据图2所示的方案得出有限样本和渐近性质。bLassobLassothe测试集上的最小GE,定义为τ:bLasso→ minbλ{势模型的GEs}。映射τ还双射地将β赋给总体中的最小GE,其次是ifminb∈bλnsnsXi=1kYs- Xsbk公司→ minbZky公司- xTbkdF(x,y),然后是BLASSO<=> 势模型的最小值{GEs}P→ minbZkys公司- xTsbkdF(x,y)<=> β,换句话说,这是一致的。

14
kedemingshi 在职认证  发表于 2022-5-25 08:45:38
这种方法不仅适用于Lassobut,也适用于其他旨在控制拟合或实施模型选择的估计器。假设和识别首先,我们强调(X,Y)中的每个变量必须在实施套索之前进行标准化。如果没有标准化,Lasso算法可能会受到影响,并且无标度。为了确保Lasso的一致性,我们需要以下四个假设。A1实际DGP为Y=Xβ+u.A2 EuTX公司= A3βi X.A4中任何其他变量的组合训练集和测试集都是来自同一人群的i.i.d。A2是通常的外生条件。A3是选型所必需的;否则,可能存在另一个与总体DGP在统计上没有差异的模型。注:允许任何线性相关性影响真实DGP。因此,A3弱于我们在本文中关注的i.i.d.案例的典型示例。如果A4不满足要求,则样本可能包含来自两个完全不同的DGP的数据,Lasso通常无法选择一个单一模型来表示两个不同的DGP。在假设A1到A4下,我们证明了真正的DGP是最一般化的模型,从而得出命题1。提案1。YXβu仅为最小泛化误差的一个→ ∞.命题1指出,β和globallysample之间存在一个双射映射,使得真正的DGP不是最一般化的模型。Lassoalgorithm选择GE最小的模型。因此,我们还需要证明,套索选择了哪个。这一点如提案2所示。提议2。在假设A1到A4和命题1下,至少存在一个Eλ,使得limen→∞beλ=β。bisame |λ|。

15
能者818 在职认证  发表于 2022-5-25 08:45:43
如果没有标准化,规模较小的变量将具有较大的系数,并且与规模较大、系数较小的变量相比,下降的可能性较小。在另一篇文章中,我们提出了一种“集群套索”算法来处理非i.i.d.情况。b2b1bOLSbLassolevel集合L2 Lossbetaunder-shrinkedb2b1bOLSbetabLassolevel集合L2 Lossperfect-shrinkedb2b1bOLSbetabLassolevel集合L2 Lossbetaover shrinkedFigure 3:引理1和2中Lasso和β的解,在定理1中,我们证明最小化经验GE保证样本中的最小经验GE收敛到最小Geinen→ ∞βeλsample在某些λ处收敛到种群最小值GE,该值由β唯一影响。作用在图3中,钻石形状的可行区域由Thelplaud确定,bLassoβbolsλ的不同值意味着约束最小化的可行区域的不同边界;λ值越大,可行面积越小。因此,三个λβλλ中的一个*β(3)对于较大的λ值,β在可行区域之外(过度收缩)。在情况(1)和(2)中,约束变为非活动asen→ ∞, 索利门→∞bλ=阈→∞bOLS=β。然而,在案例(3)中,limen→∞bλ6=β。因此,李门→∞beλ=β,eλ∈ {λ| 0 6λ6λ*}.如上所述,实际上我们没有观察到λ*先验知识。谜题缺失的部分是找到λ→eλasn→ ∞.

16
nandehutu2022 在职认证  发表于 2022-5-25 08:45:46
因此,给定命题1、2和定理1,我们现在证明经验GE最小化保证了LassoLFigure 2选择的模型。定理2。以下概率为$(1)的有界持有- 1/nt)nskXsbtrain- XbLassokntketk1-√-nskesk公司+nskeTsXsk公司∞kbtraink+(6),其中b训练是基于训练集的极值估计量,我们需要=Yt- XTBtrain和es=Ys- Xsbtrain。λλkkkkk>KλKqth(Xqt,Yqt)qth(Xqs,Yqs)kthbktrainns每个训练集的样本量为nt。argmaxk,qRns(bktrain | Xqs,Yqs)k*Q*黑色*trainbtraink列车*K*$K*$因此,对于任何k和q∈ [1,K],Rns(bktrain | Xqs,Yqs)6个RnsB列车| Xq*s、 Yq公司*s6 RntB列车| Xq*t、 Yq公司*T1.-√-1+在这个等式中,我们定义了“最坏情况”,即GE amongKvalidations,Rnsbktrain | Xqs、Yqs, 是所有验证中最大的验证。在这里,我们为套索调整的byK-foldcross验证提出以下概率界。推论2。以下界限适用于概率为$(1)的K折叠交叉验证套索-/nt)KKXq=1nsXQSB列车- XQSBLASO公司ntketk1-√-KKXq=1nsEQ+KKXq=1nsEQTXqs∞B列车+ 。etbtraineqsbtrain在qthtest集合上。利用定理2,定理3证明了Lasso在nt>p的情况下是一致的。定理3。nt>pbound持有概率$(1- 1/nt)KB列车-布拉索克斯ρntketk(1-√)-ρnskesk+rρnskeTsXsk∞kbtraink公司+ρ(7) ρxtxbtranlto limn时的真实DGP→∞p/en=0。可以根据定理3、推论2和定理1导出nt>Pc,如下所示。K=2的情况也被称为保持验证。推论3。A4,对于nt>p,以下界限以概率$(1)成立- 1/nt)KKXq=1B列车- 布拉索nt·ρketk1-√-KKXq=1ns·ρEQ+KKXq=1ns·ρEQTXqs∞B列车+ρρminnρkρkis的最小特征值木酮糖激酶TXks,Kobtrain是导致最大GE inKvalidations的OLS估计器。因此,仅基于真实DGP if limn→∞p/en=0。XTX,其中P>n。

17
大多数88 在职认证  发表于 2022-5-25 08:45:49
在这种情况下,极值估计器btrain必须满足im(btrain)6 n。因此,p>nM的极值估计器可以通过正向选择Kbkis来实现,该Kbkis被设计为在corr(u,xi)小于未通过正向选择选择的所有xit的某个预设数时停止。具体而言,如Efron等人(2004)所示,Lassoma可能被视为具有anLnorm约束的正向选择回归。Zhang(2010)表明(算法2),FSR发现变量组合H,在其出租方的变量数量等于tomin(nt,p)(类似于Lasso)的限制下,使回归训练误差最小化。此外,Zhang指出,FSR是一种一致的算法,可能会导致有限样本的过度拟合。他还表明,FSRisL在稀疏特征值条件下是一致的(Bickel et al.,2009;Meinshausenand Yu,2009)。因此,在p>n的情况下,我们将FSR估计器设置为b训练。在OREM 4中,我们表明Lasso通过导入Bickel等人(2009)的稀疏特征值条件,减少了P>ncase的FSR和isL一致性的过度拟合;Meinshausen和Yu(2009)-有关详细信息,请参见附录1中定理4的证明。定理4。基于定理1、定理2和推论2,假设A1 top>Nt,概率$(1- 1/nt)KB列车- 布拉索克斯ρrentketk(1-√)-ρrenskesk+rρrenskeTsXsk∞kbtraink公司+ρre(8) LARS及其一致性,见Efron et al.(2004)和Zhang(2010)。图4:Btrain和bLassoconvergenceρRextxBtrain估计器的表示。

18
大多数88 在职认证  发表于 2022-5-25 08:45:52
因此,Lasso和FSR估计器在limn中均以范数收敛到真正的DGP→∞ln p/en=0。nt6 Pc可根据定理4、推论2和定理1推导,如下所示。推论4。基于定理1、定理4和推论3,在假设a1至A4和受限特征值假设fornt>p的情况下,以下界适用于概率$(1- 1/nt)KKXq=1B列车- 布拉索nt·ρketk1-√-KKXq=1ns·ρEQ+KKXq=1ns·ρEQTXqs∞B列车+ρρminheρk | eρkis的最小限制特征值木酮糖激酶TXks,kibtrainKLlimn公司→∞ln p/en0。定理2至4捕获了Lasso估计量Blasso和ThebTrain之间的关系,表明极值估计量是一致的,并且收敛于真参数βn→ ∞btrainβ对应的收敛路径。btrainbLasso公司$-/Ntl介于Btrain和Blassois之间,以三项之和为界:由(7)和(8)中的Tsx/Nterm引起的过度拟合。因此,如图4所示,Lasso估计器(经验Hower,定理2至4)表明,从收敛路径上看,Lasso的偏差为blassoλkbkg,在-以B线为中心的球,半径由RHS(7)或(8)给出。如图4所示,Blasso始终位于-虚线45所示的球可行区域o-设置半圆。Asn/pincreases-球成为β泛化能力。

19
mingdashike22 在职认证  发表于 2022-5-25 08:45:56
因此,我们证明了最小化GE和不对称假设之间的联系是令人满意的,即使在实践中假设不令人满意,它通常仍然被认为对实证研究(如政策分析)有用,因为它使估计模型在应用于样本外数据时的性能稳定。与之前的工作相联系,我们的方法从不同的角度为套索建立了一致性,并验证、概括或补充了以下论文的结果。(1971b)最初在集团分类模型的背景下提出SRM原则。算法。除了我们的变换策略和定理2之外,SRM还可以应用于研究数值算法和估计量的性质,一致性证明的一般证明,以及泛函的一般空间的结果。imation。正如我们在引入VC理论时所显示的,如果N/pis非常大,训练误差将接近泛化误差。因此,OLS可被视为SRM的一个特例,其中训练误差被视为与一般化Vapnik和Chervonenkis(1974)大致相同,还导出了极值估计量一致性的必要和有效条件,他们称之为经验风险最小化。错误和测试错误。这两个方程中的最后一个RHS项是从定理1证明中使用的Hoe ffing不等式推导出来的。错误此外,通常我们可以用线性回归来近似任何DGP,因为在实践中,这种想法会遇到三个问题:(1)在实证研究中不可能公式化有限的序列,(2)对于高维数据,我们需要确定哪些DGP可以与其他模型区分开来,最小化GE将最终指导对真实DGP的估计。

20
nandehutu2022 在职认证  发表于 2022-5-25 08:46:00
即使DGP没有很好地定义,也会渐近最小化数据。Zhao和Yu(2006)、Meinshausen和Yu(2009)以及Knight和Fu(2000)通过定义X=[X,X],得出了空气可表示条件,其中X是trueXkXTX中的元素-1XTXsignbk<真实DGP中任何变量上的冗余变量,系数参数的范数不能大于1 ask(XTX)-1XTX2jsign(b)k=Ppi=1 | corr(X1i,X2j)|<1。我们的假设限制较少,因为A3只要求真正的DGP是唯一的。Shao(1997)比较了AIC、BIC、交叉验证和其他方法的模型选择性能,并提出了使广义信息准则(GIC)和交叉验证在模型选择中保持一致的条件。如果备选模型集至少包含一个具有固定维度的正确模型,则K倍交叉验证是一致的。通过引入风险投资理论,我们的工作从两个方面对邵的条件进行了补充和扩展。首先,我们介绍了一种惩罚过复杂模型的方法的有限样本性质。通过交叉验证,我们的条件与Shao的条件一致。适应性套索(Zou,2006)、放松套索(Meinshausen,2007)和群体套索(Friedman4。模拟研究y由以下DGP生成:y=Xβ+u=Xβ+Xβ+uwhereX=(X,··,xp)∈ RPI由Varxicorrxi,xj的多元高斯分布生成。,i、 jβ(2,4,6,8,10,12)Tβp-单位方差。这里xidoesn不是xjan的原因,u和xi之间不存在因果关系。预热模拟50次。在每次模拟中,我们应用Lasso算法来确定β的估计值,并计算其与真值的距离、泛化误差,并且GRN>pn<pExplots(见附录3)显示了β中所有系数的估计值(标记为b)βbb指偏差最大的估计值。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 10:45