楼主: nandehutu2022
1598 32

[量化金融] 从泛化角度看模型选择的一致性 [推广有奖]

  • 0关注
  • 5粉丝

会员

学术权威

74%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
69.4921
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24246 点
帖子
4004
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-20

楼主
nandehutu2022 在职认证  发表于 2022-5-25 08:44:48 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Model selection consistency from the perspective of generalization
  ability and VC theory with an application to Lasso》
---
作者:
Ning Xu, Jian Hong, Timothy C.G. Fisher
---
最新提交年份:
2016
---
英文摘要:
  Model selection is difficult to analyse yet theoretically and empirically important, especially for high-dimensional data analysis. Recently the least absolute shrinkage and selection operator (Lasso) has been applied in the statistical and econometric literature. Consis- tency of Lasso has been established under various conditions, some of which are difficult to verify in practice. In this paper, we study model selection from the perspective of generalization ability, under the framework of structural risk minimization (SRM) and Vapnik-Chervonenkis (VC) theory. The approach emphasizes the balance between the in-sample and out-of-sample fit, which can be achieved by using cross-validation to select a penalty on model complexity. We show that an exact relationship exists between the generalization ability of a model and model selection consistency. By implementing SRM and the VC inequality, we show that Lasso is L2-consistent for model selection under assumptions similar to those imposed on OLS. Furthermore, we derive a probabilistic bound for the distance between the penalized extremum estimator and the extremum estimator without penalty, which is dominated by overfitting. We also propose a new measurement of overfitting, GR2, based on generalization ability, that converges to zero if model selection is consistent. Using simulations, we demonstrate that the proposed CV-Lasso algorithm performs well in terms of model selection and overfitting control.
---
中文摘要:
模型选择很难分析,但在理论和经验上都很重要,尤其是对于高维数据分析。最近,最小绝对收缩和选择算子(Lasso)已应用于统计和计量经济学文献中。套索的一致性已在各种条件下建立,其中一些条件在实践中难以验证。本文在结构风险最小化(SRM)和Vapnik-Chervonenkis(VC)理论的框架下,从泛化能力的角度研究了模型选择问题。该方法强调样本内拟合和样本外拟合之间的平衡,这可以通过使用交叉验证来选择对模型复杂性的惩罚来实现。我们证明了模型的泛化能力与模型选择一致性之间存在着精确的关系。通过实现SRM和VC不等式,我们证明了在类似于OLS的假设下,Lasso对于模型选择是L2一致的。此外,我们还推导了惩罚极值估计量与无惩罚极值估计量之间的距离的概率界,该界主要由过拟合决定。我们还提出了一种基于泛化能力的新的过拟合度量GR2,如果模型选择一致,该度量将收敛到零。通过仿真,我们证明了所提出的CV-Lasso算法在模型选择和过拟合控制方面表现良好。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
--> Model_selection_consistency_from_the_perspective_of_generalization_ability_and_V.pdf (1.37 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:模型选择 一致性 relationship Quantitative Minimization

沙发
kedemingshi 在职认证  发表于 2022-5-25 08:44:55
从泛化能力和风险投资理论的角度进行模型选择的一致性,并将其应用于悉尼大学拉索因Xusoing经济学院、悉尼大学红建经济学院Timothy C.G.悉尼大学菲舍尔经济学院高维数据分析。最近,统计和计量经济学文献中应用了最小绝对收缩和选择算子(Lasso)。套索的一致性已在各种条件下建立,其中一些条件难以在实践中验证。本文在结构风险最小化(SRM)和Vapnik-Chervonenkis(VC)理论的框架下,从广义化能力的角度研究了模型选择问题。该方法强调样本内和样本外的平衡,这可以通过使用交叉验证来选择模型复杂性的惩罚来实现。我们证明了模型的泛化能力和模型选择一致性之间存在着精确的关系。通过实现SRMand和VC不等式,我们证明了模型选择的Lasso isL一致性,基于推广能力,如果模型选择一致,惩罚极值估计量和极值估计量之间的距离GR会收敛到零。通过仿真,我们证明了所提出的CV-Lasso算法在模型选择和过拟合控制方面表现良好。关键词:模型选择,VC理论,泛化能力,套索,高维数据,结构风险最小化,交叉验证。作者要感谢迈克·贝恩、科林·卡梅隆、彼得·霍尔和徐胜尚对早期草稿的宝贵意见。

藤椅
何人来此 在职认证  发表于 2022-5-25 08:44:58
我们还要感谢第12次研究小组的参与者以及犹他州、新南威尔士州和墨尔本大学的研讨会参与者提出的有用问题和评论。Fisher感谢澳大利亚研究委员会拨款DP0663477的财政支持。电子邮件地址:n。xu@sydney.edu.au(宁旭),简。hong@sydney.edu.au(Jian Hong),蒂姆。fisher@sydney.edu.au(Timothy C.G.Fisher)arXiv:1606.00142v1【stat.ML】2016年6月1日从泛化能力和VC理论的角度进行模型选择的一致性,并将其应用于LassoJune 220161年2月。此外,鉴于高维数据分析在经济学中的日益普及,模型选择正成为统计推断的前沿。对于高维数据,维度诅咒(Bellman,1957)成为人们关注的焦点。在计量经济学中,维度诅咒是指当大量可能的预测因子(p)可用时,很难建立模型。当维度相对于给定样本大小较高时,有效样本大小(n/porn/log(p))相对较小,因此更难对种群空间进行有效采样。随着时间的推移,要估计的模型也变得更加复杂。当np=n时,模型可能会完美拟合数据,或者网格搜索可能很难用高维数据实现。ERP越高,非参数估计的收敛速度越低。对于高维数据,由于测量和估计中的缺失值导致的问题也会变得更严重。尺寸缩减。

板凳
可人4 在职认证  发表于 2022-5-25 08:45:03
然而,该分析涵盖了一些非参数模型,如资产回归,还提供了一般非线性模型的近似值seeBelloni和Chernozhukov(2011)。模型选择通常涉及使用取决于数据的得分函数(Heckerman et al.,1995),如Akaike信息标准(Akaike,1973)、贝叶斯信息标准(Schwarz,1978)、交叉验证方法(Stone,19741977)和变量间的互信息得分(见Friedman et al.(1997)和Friedman et al.(2000))。Shao(1997)证明,在模型选择中,各种类型的信息准则(IC)和交叉验证是一致的。然而,要实现的优化。Tibshirani(1996)引入了选择算子(Lasso)。考虑线性回归模型y=Xβ+uwhere∈ 矩阵(n×,R)是响应变量X的向量∈ 矩阵(n×p,R)是协变量和u的矩阵∈ 矩阵(n×,R)是i.i.d.随机误差的向量。我们感兴趣的是估计参数向量β∈ Rp在senseAs Chickering et al.(2004)中可能是稀疏的,他指出,最好的子集选择方法无法处理大量变量,启发式最多30个。可写为minbλn(kY- 得到了Xbλk)+λkbλkγ(1)k·kγLγλ>bλλOLS估计量。套索对应于γ=1的情况。当γ=2时,我们γ>模拟研究。Lasso可被视为“收缩估计器”。James和Stein(1961)证明了系数小于或等于常数。通过限制kbλkt小于abixi,将为惩罚参数λ的每个值生成不同的模型。通常,通过交叉验证选择λXiλ,我们称之为CV Lasso算法。在经济学中,我们通常只观察一个样本:交叉验证将样本分为训练集和测试集。

报纸
可人4 在职认证  发表于 2022-5-25 08:45:07
使用具有给定关联损失值的训练集估计感兴趣的参数。所选模型基于损耗最低的λ。瓦里安(2014)研究了大型数据集,因为与R.pand Fu(2000)等经济学常用的指标相比,它可能提供了更现实的预测绩效指标。Meinshausen和Bühlmann(2006)表明,套索在P>nppin实践中是一致的。Zhang和Huang(2008)研究了Lasso中的偏差,并得出其一致性James Stein估计量。参见附录2中的伪代码。或者,可以使用AIC或BIC选择λ。我们的模拟表明,CV套索略优于BIC套索,而BIC套索又优于AIC套索。(收敛)速度。等人(2008年)、Pistoresi等人(2011年)、Schneider和Wagner(2012年)、Kim和Swanson,而感兴趣的参数是通过常规程序估计的。Caner(2009)<γ<自适应套索过程。Kock和Callot(2015)研究了套索和估计器的特性,这些特性解释了力矩的强度和有效性。所选模型预测来自同一人群的新样本结果的能力。推广能力对于预测目的或研究新政策的影响非常重要。该观点基于Vapnik Chervonenkis(VC)理论(Vapnikdata和“样本外”数据。模型选择的一致性可以通过理论来建立。根据SRM,从一个样本中选择的模型可能无法很好地匹配另一个样本,主要有两个原因:两个样本可能存在不同的采样错误,或者从原始样本中选择的模型的复杂性可能设置不当。

地板
能者818 在职认证  发表于 2022-5-25 08:45:11
为了提高从样本估计的模型的泛化能力,SRM要求将估计模型应用于另一个样本时的误差最小化,称为“泛化误差”(GE)。“VC不等式”描述了样本内和样本外拟合之间的平衡。我们对极值估计的VC不等式(引理1和引理2)进行了调整和推广,并建立了一个无模型且大样本优度的模型。利用SRM,我们建立了Lasso型模型选择的一致性。那么≥ P通常施加在OLS上,而对于then<P情况,需要对XTX矩阵的SPARSEEIGEN值进行额外假设。给定一个样本,SRM可以通过选择λ在Lasso中实现,这相当于控制模型的复杂性。计量经济学中的问题。我们表明,在某些条件下,真实DGP唯一地影响总体中的最小泛化误差(命题1)。因此,我们证明了真正的DGP将由给定λ的套索选择(命题2)。然后,我们证明(定理2、3和4),经验GE的VC不等式和最小化不仅保证Lasso在模型选择上是一致的,而且Lasso比极值估计提供更好的样本外拟合。我们推导了惩罚极值估计量和无惩罚极值估计量之间的距离的概率界,其主要由过拟合决定。我们详细讨论了λ的选择如何影响模型选择。我们的证明策略强调了渐近性能和泛化能力之间的联系。我们没有将注意力局限于单个样本,而是将两者都考虑到了GE空间。

7
何人来此 在职认证  发表于 2022-5-25 08:45:14
我们表明,经验GE最小化不仅控制了配置并提高了有限样本的性能,而且有助于我们在Knight和Fu(2000)、Zhao和Yu(2006)、Candes和Tao(2007)以及Meinshausenand Yu(2009)中找到函数回归的真实模型。此外,我们的工作还揭示了基于VC理论的一般模型选择的适用性,从泛化能力的角度深入了解了偏差-方差权衡。本文的组织结构如下。我们首先在第2节中讨论了推广能力和模型选择一致性之间的关系。在第3节中,我们证明了在所提出的条件下,LassoisL在模型选择上是一致的。在第4节中,我们使用模拟来证明Lasso选择模型和控制过度拟合的能力。算法的伪代码见附录2,仿真图见附录3.2。泛化能力、结构风险最小化和模型选择2。1、泛化能力和过度倾向在计量经济学中,选择数据的最佳近似值包括衡量a损失、Lossyi、bmxi、b、i、,nbmx,带真值y。风险函数定义为r(b | X,y)=ZLoss(y,bm(X,b))dF(X,y),其中f(X,y)是(X,y)的联合分布。在事先不知道分布f(x,y)的情况下,我们将经验风险函数定义为如下rn(b | x,y)=nnXi=1损失(yi,bm(xi,b))。bmx,b^yX^bRnb | X,YnPni=1(yi- ^yi)。对于回归模型,通常用于测量样本数据中的拟合优度。我们可以重写RAS 1- Rn(b | X,Y)/TssW其中Tss=(1/n)Pni=1(Y- 是)。

8
mingdashike22 在职认证  发表于 2022-5-25 08:45:17
因此,样本内数据可能不是模型泛化能力总体有用性的可靠指标,泛化能力是衡量模型在样本外数据情况下预测性能的指标。XY是直接观察到的,泛化能力是样本外数据的实际值和估计值之间差异的函数。本文研究了经验风险的泛化能力。定义1。l训练误差minbrntb | Yt,XtRnbtrain | Yt,xtwherebtrain minimizernt(b | Yt,Xt)和(Yt,Xt)是指用于估计b的数据,也称为训练集。泛化误差定义为asRns(btrain | Ys,Xs),其中(Ys,Xs)是指未用于估计B的数据,也称为测试集。如下所示:btrain=argminbntkYt- XtbkRnt(btrain | Yt,Xt)=ntkYt- XtbtrainkRns(btrain | Ys,Xs)=nskYs- xsbtrainkwherentandnsa分别表示训练集和测试集的样本大小。此后,min{ns,nt}用en表示。如果我们有多个样本,很容易将其中一些定义为测试集,另一些定义为训练集,使用训练集进行估计,并使用测试集验证从训练集估计的模型的泛化能力。此方法称为“验证”。如果我们只从人群中收集一个样本,我们可以随机地在现实中,我们可能没有足够的样本点来验证这种划分。另一方面,如果我们收集的唯一样本不够大,并且我们将其划分为训练集和测试集,那么我们会减小训练集的大小,从而影响我们从训练集估计的模型的性能。

9
mingdashike22 在职认证  发表于 2022-5-25 08:45:20
因此,当我们只有统计学习文献时,GE也被称为“测试错误”或“验证错误”。切换到K折叠交叉验证。更详细地说,交叉验证意味着将整个样本随机划分为多个文件夹。我们选择一个折叠作为测试集,并指定剩余的-1折叠为训练集。然后,我们对训练数据进行极值估计,并使用拟合模型在测试集上记录其GE。这个过程会重复K次,每个文件夹都有机会扮演测试集的角色,剩下的K-kk通过实施交叉验证,在训练集和测试集中使用每个数据点。此外,交叉验证通过在不同的训练集和测试集上运行validationKtimes来减少重采样错误。因此,从直觉上看,交叉验证对重采样错误更具鲁棒性,至少应与验证一样有效。在第3节中,我们研究了惩罚极值估计在验证和交叉验证情况下的推广误差,并详细说明了它们之间的差异。我们使用训练误差来测量样本内误差,使用泛化误差来测量样本外误差。这两个误差说明了为什么amodel的泛化能力对模型选择至关重要。当对数据施加不必要的复杂模型时,它通常会受到过度拟合的影响:模型将过于适合样本内数据,从而影响其样本外性能。为了总结样本内和样本外的拟合优度,我们提出以下经验测量=1.-Rns(btrain | Ys,Xs)TSS(Ys)×1.-Rnt(btrain | Yt,Xt)TSS(Yt)= Rs×Rt(2),其中Rt为测试集的Ther,Rt为训练集的Ther。

10
kedemingshi 在职认证  发表于 2022-5-25 08:45:23
如果btrain一致,则HRNT(btrain | Yt,Xt)和RNS(btrain | Ys,Xs)收敛到与en相同的概率极限→ ∞, 暗示limen→∞GR=1。GRGRset井将具有较高的Rtandsvalue,因此具有较高的GR。当发生过度装配时,RTR将发生,两个标准都将较低,从而进一步降低GR。在训练集上估计的模型也可能更好地拟合测试集(高而低)。在第4节的模拟中,我们发现GR在衡量过盈和欠盈方面表现良好。2.2。结构风险最小化和模型选择RNB通常,K=5、10、20、40或N.(1971a、b)。本质上,SRM原理表明:给定函数形式bm,则krnb | X,Y- Rb | X,yk随着样本量的增加收敛到零。如果BM(x,b)恰好是模型的正确函数形式,则SRM原理等价于计量经济学中的一致性性质。RnbRbChervonenkis,1974),如下所示。引理1。(Vapnik和Chervonenkis,1971a)。以下VC不等式适用于概率(或幂)1- η,BN∈ N+,R(b | X,Y)6Rnt(b | Xt,Yt)1-√(3) orR(b | X,Y)6 Rnt(b | Xt,Yt)+√1.-√Rnt(b | Xt,Yt)(4),其中Rnt(b | Xt,Yt)是极值估值器b的训练误差,R(b | X,Y)是泛化误差RNS(b | Xs,Ys)的期望值,是b的VC维数,以及 = (1/nt)[小时ln(nt/h)+小时- ln(η)]。无论样本如何,anR=1或R=1中的phresult。对CAN的详细解释为b的泛化误差提供了上限。当有效样本量(定义为asnt/h)较大时,小,则(4)的RHS上的第二项变小,训练误差接近泛化误差,过度拟合无关紧要(或cannt/hlikely.nt/hof(4))。由于(4)中的第二项取决于h,因此,不是最小化RNT,而是需要最小化GE的上界。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 07:18