楼主: nandehutu2022
1605 32

[量化金融] 从泛化角度看模型选择的一致性 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-5-25 08:46:03
表1中报告了所有四种情况下的Lasso和OLS/FSR估计值以及GRANDGR(50个模拟的平均值)。n>pβ,偏差小得多。事实上,联合显著性检验(Ftest)未能拒绝OLS估计的所有β系数均为零的无效假设。如图5所示,拉索格里斯山脉略大于OLSGR,但差异无关紧要。当nn=p时,如图6所示,Lasso仍然表现良好,但很明显GRGR这是OLS支持过度匹配问题的证据。n<如图7和8所示,Lasso仍然表现良好,并正确选择了系数非零的变量。相比之下,虽然FSR也通过对估计施加罚款来正确识别非零PGRGRP,但Lasso缓解了过度匹配问题,并且随着p的增加,Lasso的优势可能会更加明显。表1强化了箱线图和直方图的印象。当NP=200时的泛化误差,而其GRI非常接近套索值。对于P=250的样本,生成相应的下降率。值得注意的是套索相对于FSR的稳定性能。

22
大多数88 在职认证  发表于 2022-5-25 08:46:06
训练错误,概括,避免过度匹配。表1:平均偏差、训练误差、泛化误差、取样器内、取样器外和GR对于Lasso和OLS/FSR测量p=200 p=250 p=300 p=500BiasbLasso0。7124 0.7382 0.7813 0.8713bOLS/F SR0。9924 9.7946 6.4417 6.3143训练错误套索0.9007 0.8915 0.9048 0.8550OLS/FSR 0.2048 2.5856 374.9750 343.8078泛化错误套索1.1068 1.0998 1.1095 1.1396OLS/FSR 5.2109 525.4980 406.4791 359.5249R,样本套索0.9994 0.9994 0.9994 0.9995OLS/FSR 0.9999 0.9985 0.7603 0.7821R,样本外套索0.9993 0.9993 0.9993 0.9993OLS/FSR 0.9968 0.6696 0.7534 0.7820GR套索0.9988 0.9988 0.9987OLS/FSR 0.9967 0.6686 0.5728 0.61165。结论在本文中,通过使用SRM,我们证明了泛化能力的最大化和模型选择共享相同的代数和拓扑结构。如果我们解决一个问题,另一个问题也会得到解决。这突出了广义误差最小化在模型选择和参数估计中的重要性。我们在假设(A1–A4)下建立套索型模型选择的一致性,这些假设与我们所看到的类似,特别是在大数据越来越可用的情况下。我们提出了CV Lasso算法,减少了计算量,从而使大数据集中的模型选择变得可行。WeRGRWe通过仿真说明模型选择的一致性,并证明如果假设A1至A4满足,则CV-Lasso算法有可能恢复真实的DGP。很明显,在一系列设置下,将泛化错误降至最低GR开发一种新算法,该算法能够恢复具有复杂层次结构的DGP,这将在经济学中发现许多潜在的应用。一个潜在的问题是,当某些假设A1–A4不成立时,CV Lasso算法的可靠性。

23
何人来此 在职认证  发表于 2022-5-25 08:46:09
如果一个或多个假设失败,则无法实现一致性。然而,由于CV-Lasso算法基于最小化泛化误差,因此CV-Lasso算法选择的模型仍然具有良好的泛化能力。这在精神上类似于准最大似然的情况,在这种情况下,估计值可能不一致,但仍然有助于推断。在实现Lasso时有两个调整参数,λ(惩罚参数)和k(交叉验证中使用的折叠数)。在本文中,我们证明了交叉验证选择的λ会导致一致的模型选择和参数估计。λλ交叉验证和BIC都能很好地在中到大样本中选择λ。实际上,交叉验证中的折叠数(K)通常设置为5、10、20orn(去掉一个)。Kis的选择具有理论意义,因为它与另一篇文章相关。我们围绕K的选择提供了一些理论结果。深入了解偏差-方差权衡效应。本文主要研究了最大似然法、函数回归法、主成分分析法、决策树法等估计方法的实现。此外,这里关于Lassotype模型选择的结果可以与其他经验方法一起使用。例如,所有事物都彼此“遥远”。当激励涉及拒绝抽样时,高维度也是一个问题,因为接受概率将随着维度不断缩小,并且越来越难找到合适的包络分布。在这些情况下,我们可以应用CV Lasso为以下程序预先选择变量。参考文献参考文献NDTSAHKADSOR,亚美尼亚,苏联。布达佩斯:Akademiai Kaido,第267-281页。计量经济学146(2),304–317。大学出版社。适用于征用权的最佳工具。

24
kedemingshi 在职认证  发表于 2022-5-25 08:46:12
《计量经济学》80(6),2369–2429。Belloni,A.,Chernozhukov,V.,2011年。高维稀疏计量经济模型:简介。斯普林格。Bickel,P.J.,Ritov,Y.,Tsybakov,A.B.,2009年。lasso和dantzigselector的同时分析。《统计年鉴》371705-1732。布雷曼,L.,1995年。使用非负garrote进行更好的子集回归。技术计量37(4),373–384。Candes,E.J.,Tao,T.,2007年。dantzig选择器:大于n时的统计估计。《统计年鉴》,2313–2351。Caner,M.,2009年。Lasso型gmm估计量。计量经济学理论25(1),270–290。Chatterjee,A.,Gupta,S.,Lahiri,S.,2015年。基于高维类的残差经验过程及其函数预言性质。《计量经济学杂志》186(2),317–324。Cheng,X.,Liao,Z.,2015年。选择有效且相关的时刻:基于信息的多时刻gmm ASSO。《计量经济学杂志》186(2),443–464。Chickering,D.M.,Heckerman,D.,Meek,C.,2004年。贝叶斯网络的大样本学习是NP难的。《机器学习研究杂志》51287–1330.146(2),318–328。统计数字32(2),407–499。Frank,I.E.,Friedman,J.H.,1993年。一些化学计量学回归工具的统计视图。技术指标35(2),109–135。套索arXiv预印本arXiv:1001.0736。Friedman,N.,Geiger,D.,Goldszmidt,M.,1997年。贝叶斯网络分类器。机器学习29(2-3),131–163。Friedman,N.,Linial,M.,Nachman,I.,Pe\'er,D.,2000年。使用贝叶斯网络分析表达式数据。第四届计算分子生物学国际年会论文集。建议00。ACM,美国纽约州纽约市,第127-135页。和图形统计7(3),397–416。Heckerman,D.,Geiger,D.,Chickering,D.M.,1995年。学习贝叶斯网络:知识和统计数据的组合。

25
大多数88 在职认证  发表于 2022-5-25 08:46:16
机器学习20(3),197–243。James,W.,Stein,C.,1961年。二次损失估计。摘自:第四届伯克利数理统计与概率研讨会论文集。第1卷。第361-379页。Knight,K.,Fu,W.,2000年。Lasso型估计的渐近性。《统计年鉴》,1356-1378年。《计量经济学杂志》186(2),325–344。Manzan,S.,2015年。在数据丰富的环境中预测经济变量的分布。《商业与经济统计杂志》33(1),144–164.374–393。套索。《统计年鉴》,1436-1462年。Meinshausen,N.,Yu,B.,2009年。高维数据稀疏表示的Lasso类型恢复。《统计年鉴》,246–270。Newey,W.K.,McFadden,D.,1994年。大样本估计和假设检验。《计量经济学手册》42111–2245。再次访问丹丝。《应用经济学快报》18(7),679–682。Schneider,U.,Wagner,M.,2012年。用自适应套索捕捉生长决定因素。《德国经济评论》13(1),71–85。Schwarz,G.E.,1978年。估计模型的维度。《统计年鉴》6(2),461–464。Shao,J.,1997年。模型选择的渐近理论。中国统计局7221–242。Stone,M.,1974年。统计预测的交叉验证选择和评估。《皇家统计学会期刊》,B辑(方法学)36(2),111–147。Stone,M.,1977年。通过交叉验证和Kaike准则,模型选择的渐近等价性。《皇家统计学会杂志》,B辑(方法学)39(1),44–47。统计学会,B辑(方法学)58267–288。Tikhonov,A.,1963年。错误表述问题的解决方案和正则化方法。内容:苏联数学。Dokl。第5卷。第1035-1038页。理论,IEEE Transactions on 50(10),2231–2242.264–280。属性的出现概率以及通过经验数据确定最优解决方案的问题。

26
大多数88 在职认证  发表于 2022-5-25 08:46:21
Avtomatika i Teleekhanika(2),42–53。Vapnik,V.N.,Chervonenkis,A.Y.,1974年。关于有序风险最小化方法,II。Avtomatika i Teleekhanika(9),29–39。瓦里安,H.R.,2014年。大数据:计量经济学的新把戏。《经济展望杂志》28(2),3–27。《统计年鉴》38894-942。Zhang,C-H.,Huang,J.,2008年。高维线性回归中套索选择的稀疏性和偏差。《统计年鉴》361567-1594。机器学习研究杂志10555–568。学习研究72541–2563。Zou,H.,2006年。自适应套索及其oracle属性。《美国统计协会杂志》101(476),1418–1429。附录1屋顶。定理1。btestargminbRns(b | Xs,Ys)btrainargminbRnt(b | Xt,Yt)1- η,b、 R(b | X,Y)6 Rnt(b | Xt,Yt)1.-√-1Rntb | Xt、YtXt、YtRb | X、Y的一般化误差b和 = (1/nt){h ln[(nt/h)]+h- ln(η)}。表示M=Rnt(btrain | Xt,Yt)(1-√)-1、如果我们设置η=1/ntfor, VC不等式形成了GE的概率界。If(新台币/小时)→ ∞, thenlimen公司→∞ = 黎明→∞nt/h(ln[(nt/h)]+1)+limfnt→∞ntln(nt)=0。因此,VC不等式等于limen→∞PM- Rnt(btrain | Xt,Yt)> 1/nt= 0,b由于存在极值估计,其损失是有限的。因此,测试集合中每个数据点的丢失丢失(yi,bm(xi,b))∈[0,Bi],i 6 ns,其中bi是loss(yi,bm(xi,b))的上确界。而且,由于极值估计在L∞正常,黎明→∞Psupb公司∈∧Rns(b | Xs,Ys)- R(b | X,Y)| 6= 1.>0|Rns(b | Xs,Ys)- R(b | X,Y)| Lossyi,bmxi,btrainproperty,对于1<p 6 2,τ,即SUPB∈∧pqR[损耗(yi,bm(xi,b))]pdF(x,y)RLoss(yi,bm(xi,b))dF(x,y)6τ。提供计算收敛速度或概率的下限。

27
kedemingshi 在职认证  发表于 2022-5-25 08:46:24
在这种最坏的情况下,Bahr-Essen不等式{| R(b训练| X,Y)- Rns(btrain | Xs,Ys)| 6}>1- 2·E[损失(yi,bm(xi,btrain))p]p·np-1s>1- 2τp·(E[损失(yi,bm(xi,btrain))])pp·np-1SB列车$-τp·(E[损失(yi,bm(xi,btrain))])p/p·np-1s),则=p√2·τ(E[损失(yi,bm(xi,btrain))]))p√1.- $ · n1型-1/p这意味着,对于任何极值估计量btrain p{Rns(btrain | Xs,Ys)6 R(btrain | X,Y)+}>$。VC不等式以概率1成立-/nt。对于给定的情况,我们可以调整上述经验过程的概率界,如下所示 B列车∈ {bλ}, (1/nt)=O(1/nt)>0, Nt公司∈ R+s.t.nt>NtRns(btrain | Xs,Ys)6+M。我们可以按如下方式放宽界限:>0,τ> 0,N∈ R+主题顶部Rns(btrain | Xs,Ys)6Rnt(btrain | Xt,Yt)1-√+ > $1.-nt公司因此,概率界Rns(btrain | Xs,Ys)6 M+的概率至少为$(1- 1/nt)证明。推论1。基于定理1,对于任意极值估计量btrain,limen→∞P{Rns(btrain | Xs,Ys)6 M+}=1。它遵循着那个界限→∞P{Rns(btest | Xs,Ys)6 Rns(btrain | Xs,Ys)6 M+}=1,因为可以是任何小的正值,如en→ ∞ 安德利门→∞{Rns(btest | Xs,Ys)}=阈限→∞M经验GE最小值和结构风险最小值具有相同的限制。证据提案1。给定A1–A4,实际DGP为yi=xTiβ+ui,i=1。

28
可人4 在职认证  发表于 2022-5-25 08:46:28
证明真正的DGP具有最高的泛化能力(最低的GE)等同于在测试集中证明PNI=1易- xTiβnPni=1易- xTib公司n、 (9)这相当于证明0 6nnXi=1h易- xTib公司-易- xTiβ我<==> 0 6nnXi=1易- xTib+yi- xTiβ易- xTib公司- yi+xTiβ<==> 0 6nnXi=1易- xTib+yi- xTiβxTiβ- xTib公司.定义δ=β- b、 如下所示,0 6nnXi=12yi- xTib公司- xTiβxTiδ<==> 0 6nnXi=12yi- xTiβ+xTiβ- xTib公司- xTiβxTiδ<==> 0 6nnXi=12yi- 2xTiβ+xTiδxTiδ<==> 0 6nnXi=12ui+xTiδxTiδ因此,证明(9)等同于提供0 6nnXi=12ui+xTiδxTiδ由于E(XTu)=0(A2),因此nnxi=1ui·xiP→ 0<==>nnXi=1ui·xTiβP→ 0和nnxi=1ui·xTiB→ 0因此,渐近lynnxi=12ui+xTiδxTiδ=nnXi=12δuixTi+nnXi=1xTiδP→ ExTiδ> 0证明。定理2。在定理1的证明中,我们定义了Btrain=argminbRnt(b | Xt,Yt),这意味着Btrain是任何训练集上没有惩罚的极值估计量。Wealso haveM=Rnt(btrain | Xt,Yt)(1-√)-1.

29
大多数88 在职认证  发表于 2022-5-25 08:46:31
定理1显示了以下界B∈ ∧Rns(b | Xs,Ys)6 Rnt(b | Xt,Yt)1.-√-1+-/新台币b元∈ {bλ}bLassoGE在测试集上,Rns(bLasso | Xs,Ys)6 Rns(b | Xs,Ys)我们有nskys- XsbLassokntkYt公司- XTB训练1.-√-1+定义 = B列车- 布拉索,Yt- Xtbtrain=etand Ys- Xsbtrain=es,新南威尔士州- XsbLassok=新南威尔士州- XSB列车+Xsk=NSK+Xsk=ns(es+Xs)T(es+Xs)=ns系列kesk+2台TSX + TXTsXs因此,新南威尔士州- XsbLassokntkYt公司- XTB训练1.-√-1+表示NSKESK+nseTsXs +ns系列TXTsXs 6ntketk1-√+ 。接下来是NSKXSkntketk1-√-nskesk!-nseTsXs + 。根据Holder不等式,-eTsXs 6 | eTsXs| 6.eTsXs∞Kk、 接下来是NSKXSkntketk1-√-nskesk+ns系列eTsXs∞Kk+。此外,由于kbLassok6 kbtrainkkk=KB系列- bLassok6 kbLassok+kbtraink6 2 KBTRAINKs结果是,我们有了NSKxkntketk1-√-nskesk+ns系列eTsXs∞kbtraink+(10),其中我们表示为训练集上计算的测试集上的极值估计量预测,表示为测试集上的套索预测。接下来就是bys公司- 比拉索斯测试集上的极值估计预测。界以概率(1)成立- 1元/新台币)$。证据推论2。我们需要证明VC不等式和SRM也支持分叉被划分为Kequal大小的褶皱。如果k=2,则K foldcross验证的理论结果与定理2相同。因此,我们这里只讨论K>3的情况。ForK>3,我们有用于λ-调谐的KDI不同测试集和用于估计的KDI不同训练集。将QTH训练集表示为(Xqt,Yqt),QTH测试集表示为(Xqs,Yqs),从KTH训练集估计的最大估计量表示为BKTRAIN,每个测试集的样本量表示为NSAN,每个训练集的样本量表示为NT。

30
可人4 在职认证  发表于 2022-5-25 08:46:34
基于定理1,foreach测试集,下面的边界包含fork和q∈ [1,K]概率至少为(1- 1/nt)$克朗(bktrain | Xqs,Yqs)6兰特(bktrain | Xqt,Yqt)(1-√k)-1+k。因此,KKXq=1个Rns(bktrain | Xqs,Yqs)6个Rns(btrain | Xq*s、 Yq公司*s) 6 Rnt(btrain | Xq*t、 Yq公司*t)1.-√-1+因为Blassominizes(1/K)PKq=1Rns(b | Xqs,Yqs),KKXq=1Rns(bLasso | Xqs,Yqs)6KKXq=1Rns(bktrain | Xqs,Yqs),K∈ [1,K]因此kkxq=1Rns(bLasso | Xqs,Yqs)6 Rnt(btrain | Xq*t、 Yq公司*t)1.-√-1+。表示(黑色*列车| Xq*t、 Yt)Byetandrans(黑色*列车| Xq*s、 Yq公司*s) 是的。上述方程等效于toKKXq=1nskYqs- XqsbLassok公司ketknt1-√+ 。通过定义 = B列车- blasso和eqs=Yqs- Xqsbtrainwe havenskYqs- XqsbLassok=nsYqs公司- XQSB列车+Xqs=ns系列EQ+XQ=ns系列EQ+XQTEQ+XQ=ns系列EQ+ 2.EQTXqs + T(Xqs)TXqs.因此,KKXq=1nskYqs- XqsbLassok公司nt公司Yqt公司- XQTB列车1.-√-1+意味着kkxq=1nsEQ+KKXq=1nsEQTXs公司 +KKXq=1nsT(Xqs)T(Xqs) 6ntketk1-√+ 。因此kkxq=1nskXqskntketk1-√-KKXq=1EQns系列-KKXq=1nsEQTXqs + 。根据Holder不等式,-1个·EQTXqs 6|EQTXqs| 6.EQTXqs∞Kk、 因此kkxq=1nskXqsKntketk1-√-KKXq=1EQns系列+KKXq=1nskEQTXqsk公司∞Kk+。还有,自从kbLassokB列车Kk级=B列车- 布拉索6 kbLassok+B列车6.2B列车因此,我们有kkxq=1nskXqsKntketk1-√-KKXq=1nsEQ+KKXq=1nsEQTXqs∞B列车+此公式是边界forEkhE(Xks,Yks)bys公司- 比拉索斯i、 迭代的预期difXks、Yks概率保持(1- 1元/新台币)$。证据定理3。在Newey和McFadden(1994)条件下,极值估计是一致的。如果n>p,极值估计量train就是OLS估计量。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 20:00