楼主: 可人4
1390 35

[量化金融] 泛化误差最小化:一种新的模型评估方法 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-5-26 19:51:09
验证案例。以下是Boll和validatedb之间的差值界限*概率至少为π(1)的保持-1/nt)kbOLS-b*堪萨斯州ρntketk(1-√ε)-ρnskesk+sρnskeTsXsk∞克博尔斯克+ρ(13) 其中ρ是XTX的最小特征值,在引理2.2中定义。K-折叠交叉验证案例。以下是THL的界限-K折叠交叉验证BOLS和b之间的差异*概率至少为π(1)的保持-1/nt)KK∑q=1(KBQOL-b*qk)KK公司∑q=1ntρ*eqt1.-√ε-KK公司∑q=1nsρ*keqsk公司+KK公司∑q=1nsρ*(eqs)TXqs∞B工具+ρ*(14) 式中ρ*定义minq{ρq |ρqis是Xqs公司TXqs,给定q}。D惩罚回归估计量和OLS估计量之间的差异。等式(13)的TheRHS本质上捕获了布尔和B之间的最大UML范数差异*. AsOLS型号o公式(13)RHS上的第一项(忽略1/ρ)是eGE fromOLS和总体误差上界之间的差值,或者,等效地,Bolsol产生的差值,Bolsis的eGE越接近总体误差上界,公式(13)RHS上的第一项越小式(13)RHS上的第二项(忽略4/ρ)测量经验内生性TTxs=0eTsXs6=0nskeTsXsk∞kbOLSkestimate,样本外数据的误差接近于零,公式(13)RHS的第二项越小定理1,OLS损失分布影响OLS估计量的GA。OLS的eGE约束条件越重ρxtx回归。最小特征值越大,目标函数越凸。换言之,当n变大时,从备选方案中更容易识别出真正的DGP。式(14)中RHS的第一项(忽略1/ρ*) 表示OLSestimator的平均GA距离其最大验证回合的距离。方程RHS上的第二项。

22
nandehutu2022 在职认证  发表于 2022-5-26 19:51:12
(14) 4/ρ*K在验证回合中,平均损失分布尾部的重量。作为定理3的直接结果,惩罚回归估计的L-相合性如下所示。推论2(当nn>p时,惩罚回归估计的L-相合性)。根据A1-A6和命题1、2和3,b*在THL范数中收敛到真正的DGP iflimn→∞p/en=0。图7说明了套索的定理3和推论2。由于OLSestimator的遗传算法较差,惩罚回归估计量b*通常不会位于与asb相同的收敛路径上*b*波士银行*λb*L由于我们对测试和训练数据进行了标准化,因此条件E(es)=0的时刻直接成立。Ball可行面积图7a*(a) bOLSand b*根据法律///图形7b***(b) bOLSand b*n增加时的收敛图7:bOLSand b之间的关系*在LPENALT小于验证或交叉验证的最优λ的情况下,OLS估计永远不会在BOLSN/pOLS估计中,并且两者都收敛到β。3.3.2 GEM对于n<p的惩罚回归,为了确保能够识别真实的DGPβ,我们要求(kek)是强凸inb,或者xtx的最小特征值ρ严格大于0。然而,如果p>n,ρ=0和(kek)kbOLSktrue DGP无法识别和等式。(13) 和(14)是微不足道的。βp>n(kek)p>无约束特征值条件。回归最多可以估计效率。当nP>n时,惩罚回归必须删除一些变量以使其可估计,这意味着γ>1的惩罚不适用于P>ncase。因此,对于P>ncase,我们只关注惩罚回归,即套索。如Efron等人所示。

23
能者818 在职认证  发表于 2022-5-26 19:51:15
(2004)和Zhang(2010),lasso可能被认为是具有anL范数约束的前向分段回归(FSR)。因此,套索回归可以被视为当Np>n时控制FSR年龄的一种方法。如Zhang(2010)所示,虽然FSR可能导致过拟合单位样本,但在受限特征值条件下,它是L-一致的。因此,对于p>n,我们使用FSR,bFSR作为未赋能回归估计量,使用lasso,b*, 正选择求解套索的方法是最小角度回归(LARS)。有关LAR及其一致性的详细信息,请参见Efron et al.(2004)和Zhang(2010)。通过减少FSR固有的过度拟合,对n>p情况的性质和解释。提案4LL。A1–A6和受限特征值条件,并基于引理2、命题1和2,1。验证案例。以下界限以至少π(1)的概率成立-1/nt)kbFSR-b*堪萨斯州ρrentketk(1-√ε)-ρrenskesk+sρrenskeTsXsk∞kbFSRk+ρre(15) 其中ρreis是XTX的最小限制特征值,bfsr是FSR估计量。2.

24
nandehutu2022 在职认证  发表于 2022-5-26 19:51:19
K-折叠交叉验证案例。π(1-1/nt)KK∑q=1bqFSR-b*qKK公司∑q=1ntρ*re公司eqt1.-√ε-KK公司∑q=1nsρ*雷克斯克+KK公司∑q=1nsρ*re公司(eqs)TXqs∞kbFSRk+ρ*re(16),其中ρ*reis definedminq{ρqre |ρqreis的最小限制特征值Xqs公司TXqs,给定q}和bqFSRis,在第qt轮交叉验证中,FSR估计量。图形8.日志日志日志日志日志日志***图8:bFSRand b的收敛性*随着n的增加,共3LL。b*如果limn为真DGP→∞对数(p)/en=0。D F和B之间的差异*作为FSR估计器GA和PopulationCorolution 3以类似方式的函数。4.模拟样本内和样本外的拟合优度,我们提出了以下广义的测量方法:GR=1.-Rns(btrain | Ys,Xs)TSS(Ys)×1.-Rnt(btrain | Yt,Xt)TSS(Yt)= Rs×Rt(17)RsRRtGRbtrainRns(btrain | Ys,Xs)Rnt(btrain | Yt,Xt)收敛到相同的概率极限asen→ ∞.表1:GRRshigh lowhigh high GR(理想模型)相对较低GR(过拟合)Rtlow相对较低GR(罕见)极低GR(欠拟合)的四种风格化场景表1总结了GR的四种基本场景。一个既能很好地拟合训练集又能很好地拟合测试集的模型将具有较高的R和S值,因此具有较高的GR。当过度拟合发生时,温度会相对较高,温度会较低,从而降低GR。当不匹配发生时,训练集上的TRSgrestimated更适合测试集(RSI高而Rtlow)。Lγ图4和图7,当惩罚指标γ的范数>1时,惩罚回归在模型选择上的效率较低。因此,我们关注L-惩罚或套索型回归。对于模拟,我们假设结果y由以下DGP生成:y=Xβ+u=Xβ+Xβ+uX=(X,···,xp)∈ Rpvar(xi)=1 corr(xi,xj)=0.9,i、 jβ=(2,4,6,8,10,12)Tβ(p-6) 向量。由均值和方差σ为零的正态分布生成的UI。

25
可人4 在职认证  发表于 2022-5-26 19:51:24
在这里,xidoes notcausexjan和xi之间没有因果关系。我们将样本量设置为250,pisσβ计算其与真实值的距离,即eGE,以及我们的优度度量值EGR。作为比较,我们还将OLS应用于n>p的情况,并将FSR算法应用于n<p的情况。βbbβbb图9-12中报告了每个病例的格拉尔柱状图。最后,表1中报告了所有四种情况下GR之间的距离。当nn>p=200时,如图9和图11中的箱线图所示,lasso和OLSβσ=1与σ=5相比(图11)。Lasso在β的估计方面明显优于OLS,偏差小得多。事实上,联合显著性检验(Ftest)未能拒绝零假设,即OLS估计的所有β系数均为零。如图9和图11所示,套索的GR略大于OLS,但差异无关紧要。当nn<p=500时,回归模型不确定,OLS不可行,我们应用了YFSR。如图10和图12所示,lasso仍然表现良好,并正确选择了系数非零的变量。相比之下,虽然FSR也能正确识别非零系数,但GRby lasso(其GRA接近1)的性能较差。这表明,通过对估计施加anL惩罚,lasso缓解了过度匹配问题,而且,随着p的增加,lasso的优势可能会更加明显。n>p=200在训练误差方面表现非常好,尽管在泛化误差方面表现较差,但其GRI非常接近套索值。对于n<p=500,值得注意的是套索相对于FSR的稳定性能。

26
可人4 在职认证  发表于 2022-5-26 19:51:27
对于FSR来说,训练错误、泛化错误和GRA尤其糟糕,再次说明了套索在避免过度拟合方面的优势。5结论n>pn<p误差分布的复杂性和尾部的严重性。这些不等式不仅适用于表2:偏差、eTE、eGE、Rt、Rs、,对于n=250的套索和OLS/FSR,测量σ=1σ=5p=200 p=500 p=200 p=500 Biasblasso0.7923 0.8810 3.8048 4.1373bOLS/FSR0.9559 11.7530 4.7797 13.7622etlasso 0.9167 0.8625 22.2476 21.1334OLS/FSR 0.2164 832.9988 5.4097 1034.2636eglasso 1.1132 1.1478 27.8672 28.5125OLS/FSR 5.2109 852.5822 134.8725 1070.6329RtLasso 0.9994 0.9994 0.9866 0.9867OLS/FSR 0.9999 0.4678 0.99670.3619RsLasso 0.9993 0.9993 0.9830 0.9826OLS/FSR 0.9967 0.4681 0.9181 0.3627GRLasso 0.9988 0.9987 0.9698 0.9695OLS/FSR 0.9965 0.3659 0.9151 0.2935nt/Ns被惩罚的估计量由其GA直接解释。此外,我们使用边界来量化被惩罚和相应的未被惩罚回归估计量之间的L范数差异。建模、贝叶斯网络等。在为所有惩罚回归提供一般性质时,推广误差界必然是保守的。通过关注特定的惩罚回归方法,可以得出更精细的误差范围。最后,作为将遗传算法分析纳入计量经济学的早期尝试,我们关注的是i.i.d.案例。然而,很明显,该框架有可能被推广到非i.i.d.数据,如α-和β-混合信纸时间序列数据以及相关和不相同的面板数据。ReferencesReferencesSahkadsor,亚美尼亚,苏联。布达佩斯:Akademiai Kaido,第267–281.18373页,国家经济研究局。Amemiya,T.,1985年。高级计量经济学。哈佛大学出版社。后期框架。工作文件16566,国家经济研究局。比克尔,P。

27
可人4 在职认证  发表于 2022-5-26 19:51:30
J、 ,Ritov,Y.,Tsybakov,A.B.,2009年。lasso和Dantzig选择器的同时分析。《统计年鉴》37(4),1705–1732.373–384。Candes,E.J.,Tao,T.,2007年。Dantzig选择器:当NP远大于N时的统计估计。《统计年鉴》35(6),2313–2351。Caner,M.,2009年。Lasso型GMM估计量。计量经济学理论25(1),270–290。Cesa Bianchi,N.,Conconi,A.,Gentile,C.,2004年。在线学习算法的泛化能力。IEEE信息论交易50(9),2050–2057。Chickering,D.M.,Heckerman,D.,Meek,C.,2004年。贝叶斯网络的大样本学习是NP难的。机器学习研究杂志51287–1330。Efron,B.、Hastie,T.、Johnstone,I.、Tibshirani,R.,2004年。最小角度回归。《统计年鉴》32(2),407–499。技术指标35(2),109–135。arXiv电子打印1001.0736.29(2-3),131–163。表达式数据。计算生物学杂志7(3-4),601-620。图形统计7(3),397–416。现象《经济方法学杂志》12(4),495–515。统计学会。系列B(方法学)53(1),245–252。密度。《美国统计协会杂志》99(468),1015–1026。Heckerman,D.,Geiger,D.,Chickering,D.M.,1995年。学习贝叶斯网络:知识和统计数据的结合。机器学习20(3),197–243.4875–5143。霍夫丁,W.,1963年。有界随机变量和的概率不等式。《美国统计协会杂志》58(301),13–30。技术指标12(1),69–82。机器学习研究杂志102873–2898。高维回归模型。《统计年鉴》36(2),587–613。Kakade,S.M.,蒂瓦里,A.,2009年。在线强凸规划神经信息处理系统的泛化能力21。Curran Associates,Inc.,第801–808.1356–1378页。第2卷。第1137-1145页。List,J.A.,2011年。

28
mingdashike22 在职认证  发表于 2022-5-26 19:51:34
为什么经济学家应该进行实地实验和14条成功秘诀。《经济展望杂志》25(3),3–15。Ludwig,J.、Kling,J.R.、Mullainathan,S.,2011年。机制实验和政策评估。《经济展望杂志》25(3),17–38。McDonald,D.J.,Shalizi,C.R.,Schervish,M.,2011年。平稳自回归模型的推广误差界。arXiv电子打印1103.0942。套索《统计年鉴》34(3),1436–1462。Meinshausen,N.,Yu,B.,2009年。高维数据稀疏表示的Lasso类型恢复。《统计年鉴》37(1),246–270。Michalski,A.,Yashin,A.I.,1986年。异质分布估计风险的结构最小化。工作文件WP-86-76,国际应用系统分析研究所。Mohri,M.,Rostamizadeh,A.,2009年。非i.i.d.进程的Rademacher复杂性界限。In:处理系统21。Curran Associates,Inc.,第1097-1104页。计量经济学42111–2245。Noor,M.A.,2008年。可微非凸函数与一般变分不等式。应用数学与计算199(2),623–630。Pearl,J.,2015年。检测潜在的异质性。社会学方法与研究,1-20(在线)。实验间、现场实验、自然实验和现场数据。《美国农业经济学杂志》91(5),1266-1271。Schwarz,G.E.,1978年。估计模型的维度。《统计年鉴》6(2),461–464。Shao,J.,1997年。线性模型选择的渐近理论。中国统计局7(2),221–242。Skrondal,A.,Rabe Hesketh,S.,2004年。广义潜变量模型:多层次、纵向和结构方程模型。查普曼和霍尔/CRC。Smale,S.,Zhou,D.-X.,2009年。马尔可夫抽样在线学习。分析与应用7(01),87–113。皇家统计学会,B辑(方法学)36(2),111–147。标准

29
mingdashike22 在职认证  发表于 2022-5-26 19:51:39
《皇家统计学会杂志》,B辑(方法学)39(1),44–47。Strongin,R.G.,Sergeyev,Y.D.,2000年。具有非凸约束的全局优化:顺序和并行算法。施普林格我们。统计学会,B辑(方法学)58(1),267–288。事件的概率。理论概率及其应用16(2),264–280。经验数据。Avtomatika i Teleekhanika,42-53岁。Vapnik,V.N.,Chervonenkis,A.Y.,1974年。有序风险最小化方法,I.Avtomatikai Teleekhanika,21–30。Avtomatika i Teleekhanika,29–39.28(2),3–27。Wang,L-W.,Feng,J-F.,2005年。通过结构风险最小化学习高斯混合模型。4858–4863。竞争算法。计算机与化学工程25(11),1601–1610。概率22(1),94–116。Yu,C.-N.J.,Joachims,T.,2009年。利用潜变量学习结构支持向量机。《加工机械》,第1169-1176页。Zhang,C.-H.,2010年。极大极小凹惩罚下的几乎无偏变量选择。《统计学年鉴》38(2),894-942。线性回归。《统计年鉴》36(4),1567–1594。机器学习研究杂志10555–568。研究72541–2563。协会101(476),1418–1429。附录A:证明。定理1btrain=argminbRnt(b | Yt,Xt)概率为1的泛化误差-1/nt,b、 R(btrain | Y,X)6 Rnt(btrain | Yt,Xt)1.-√ε-其中,RNT(btrain | Yt,Xt)是(Yt,Xt)上的训练误差,R(btrain | Y,X)是训练的真实总体误差,ε=(1/nt){hln[(nt/h)]+h-ln(1/nt)}。使用公式。

30
大多数88 在职认证  发表于 2022-5-26 19:51:42
(2) 为了量化eGE和eTE之间的关系,我们需要考虑损失函数Q(btrain | y,x)是否没有尾巴、轻尾巴或重尾巴。没有尾巴。Q(·)[0,B]B∈ (0,∞)B培训满意度,>0,P{| Rns(btrain | Xs,Ys)-R(btrain | X,Y)| 6}>1-2经验值-2nsB(A.1)如果我们定义π=1-2经验值(-2n/∑ni=1Bi),则=Bnslnr1-π(A.2)这意味着,对于任何极值估计量btrain p{Rns(btrain | Xs,Ys)6 R(btrain | X,Y)+}>π。(A.3)修改如下:>0,τ> 0,存在一个N∈ R+主题顶部Rns(btrain | Xs,Ys)6Rnt(btrain | Xt,Yt)1-√ε+> π1.-nt公司(A.4)轻尾。当ν>2时的Q(·)有限ν次矩。基于切比雪夫不等式的极值估计量Train,经验过程令人满意,>0,P{| Rns(btrain | Xs,Ys)-R(btrain | X,Y)| 6}>1-var(Q(btrain | y,x))ns(A.5),如果我们定义π=1-var(Q(btrain | y,x))/ns,然后=var(Q(btrain | y,x))ns(1-(A.6)这意味着,对于任何极值估计量btrain p{Rns(btrain | Xs,Ys)6 R(btrain | X,Y)+}>π。(A.7)修改如下:>0,τ> ,存在一个N∈ R+主题顶部Rns(btrain | Xs,Ys)6Rnt(btrain | Xt,Yt)1-√ε+> π1.-nt公司(A.8)厚尾。Q(·)f证明,对于1<ν6 2,τ、 这样,supνpR[Q(btrain | y,x)]νdF(y,x)RQ(btrain | y,x)dF(y,x)6τ。(A.9)基于Bahr-Essen不等式的极值估计量Train,经验过程满足,>0,P{| R(btrain | Y,X)-Rns(btrain | Ys,Xs)| 6}>1-2E[Q(b应变| y,x)ν]νnν-1s>1-2τν(E[Q(btrain | y,x)])ννnν-1s(A.10)如果我们定义π=1-2τν(E[Q(btrain | y,x)])ννnν-1s(A.11),则=ν√2τ(E[Q(btrain | y,x)])ν√1.-πn1-1/νs(A.12)这意味着,对于任何极值估计量btrain p{Rns(btrain | Xs,Ys)6 R(btrain | X,Y)+}>π。(A.13)由于训练集和测试集都是从人群中随机抽样的,因此公式(2)可以修改和放宽如下:>0,τ> ,存在一个N∈ R+主题顶部Rns(btrain | Xs,Ys)6Rnt(btrain | Xt,Yt)1-√ε+> π1.-nt公司(A.14)证明。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 01:04