楼主: 可人4
1781 35

[量化金融] 自适应套索的Oracle性质和有限样本推断 [推广有奖]

11
大多数88 在职认证  发表于 2022-5-5 06:21:55
这一项几乎可以忽略不计,但为细节示例推理提供了重要条件,如下文第5节所述。4有限样本推断与自适应套索在上一节中,我们推导了时间序列回归模型的自适应套索的渐近性质。特别是,我们证明了非零系数估计量的极限分布是正态的,而零系数估计量的极限分布崩溃为零。这使我们能够利用这些结果来引入对非零系数的推断。然而,由于先验知识,我们不知道非零系数θ*A、 在这种情况下,测试程序的实际实施仍不清楚。为了加深我们对这个问题的理解,假设θ的第一个分量的估计*与零不同,即^θAL,16=0。然后,我们有两种情况:(i)θ*6=0或(ii)θ*= 0.如果θ*6=0,则根据定理3.1,^θAL的极限分布,1异常。因此,我们可以为感兴趣的参数构造高斯置信区间。另一方面,如果θ*= 那么,根据定理3.1,我们只能得出结论:θAL,1必须渐近地收缩到零。由于我们事先不知道(i)或(ii)是否满足,因此我们也不知道如何对参数θ进行推断*.本节的目的是阐明如何使用自适应套索引入有效的有限样本推理。特别是,我们证明了自适应套索可以在一个步骤中结合有效的参数估计、变量选择和有效的有限样本推理。为了实现这一目标,我们根据Andrews和Guggenberger(2010)介绍了一些符号和术语。特别是,我们首先证明了自适应套索的极限分布在调谐参数中是不连续的。

12
nandehutu2022 在职认证  发表于 2022-5-5 06:22:00
最后,我们证明,通过适当选择临界值,自适应套索测试具有正确的渐近大小,其中渐近大小是测试精确大小的限制,如下文(4)所定义。为此,我们稍微改变一下符号。设^θAL,λ为θ的自适应lasso估计*在(2)中定义,其中调谐参数为0≤ λ < ∞ 是固定的,不取决于样本大小n。此外,对于i=1,p、 让0≤ λ0,i<∞ 表示λ|^λn的极限,i|/√n、 即λ|^λn,i|√N→ λ0,i,as n→ ∞. 注意,对于非零系数,λA0,i=0。然后,在下一个定理中,我们导出了√n(^θAL,λ)- θ*).定理4.1。设p+p+p=p<∞. 假设{Yt}和{Zt}是静态进程,比如npnt=1ZtZt→prC,其中C是满秩的非随机矩阵,以及√nPnt=1tZt→dN(0,Ohm), 对于某些协方差矩阵Ohm. 让0≤ λ < ∞. 然后√n(^θAL,λ)- θ*) →darg min(R),其中(u)=-2uW+uCu+pXi=1λ0,i | ui |,(3)和W~ N(0,Ohm).请注意,由于对于非零系数λA0,i=0,结果证明在(3)中,只有零系数被惩罚。此外,当λ=0时,对于i=1,p、 λ0,i=0,因此arg min(R)=C-1W~ N(0,V),这是全回归的经典最小二乘法。最后,当λ→ ∞, 对零系数的估计值崩溃为零。假设我们想要检验零假设H0,i:θ*i=θ*替代物i:θ*i6=θ*0i,对于某些θ*0i∈ R和我∈ {1,…,p}。为此,考虑自适应套索测试统计量Tλ,i(θ)*0i)=√n |θAL,λ,i-θ*0i |。在定理4.1中,我们建立了在λ中不连续且依赖于未知值λ0,i,i=1,P

13
kedemingshi 在职认证  发表于 2022-5-5 06:22:03
结果表明,由于缺乏均匀性,(3)中的极限分布可以提供非常差的测试统计量Tλ,i(θ)抽样分布的近似值*0i)在零假设下(更多细节见Andrewsand Guggenberger(2010)。为了更好地评估λ,i(θ)的有限样本特性*有必要研究检验统计量的渐近大小。因此,继Andrews和Guggenberger(2010)之后,我们介绍了Tλ,i(θ)的精确大小和渐近大小*0i)asExSzn(θ)*0i)=supγ∈ΓPH0,i,γ(Tλ,i(θ*0i)>z1-α) ,AsySz(θ)*0i)=lim supn→∞ExSzn(θ)*0i),(4)其中参数空间Γ定义为Γ={(θ)*, λ、 C,Ohm, F):θ*∈ Rp,0≤ λ < ∞, C∈Rp×p,Ohm ∈ Rp×p,det(C)6=0,det(Ohm) 6=0,F是平稳回归模型(1)的联合分布,因此NPNT=1Zt→中华人民共和国,以及√nPnt=1tTt→dN(0,Ohm)}, z1-α表示试验的临界值,α∈ (0,1)是重要级别。正如Andrews and Guggenberger(2010)所指出的,渐近尺寸的定义包含了γ的一致性∈ Γ.因此,渐近大小始终确保测试统计的有限样本大小的有效近似。利用定理4.1中的结果,我们可以证明自适应套索检验隐含了正确的渐近大小。为此,设cλ,i,1-α表示1- 检验统计量Tλ,i(θ)极限分布的α分位数*0i)。例如,当λ=0,那么c0,i,1-α就是1-随机变量| S |的α分位数,其中S~ N(0,Vi),V是V的第i个对角项。利用定理4.1中的结果,我们可以很容易地验证≤ λ < ∞,c0,i,1-α≥ cλ,i,1-α、 (5)即1- α分位数cλ,i,1-α在λ=0时最大。

14
nandehutu2022 在职认证  发表于 2022-5-5 06:22:05
为了更好地理解这一点,在下面的图1中,我们绘制了随机变量|u |分布的0.95分位数,其中u最小化了(3)中定义的函数。[图1关于此处。]鉴于目标的说明性,我们认为∈ R和C=Ohm = 1.图1中的水平实线表示|u |与u的分布的0.95分位数~ N(0,1),即λ0,1=0和c0,1,0.95=1.96。虚线代表0。对于λ0,1的不同值,随机变量|u |的95个分位数∈ 方程(3)中的[0,4]。图中显示,分位数确实最大化为c0,1,0.95=1.96。然后,随着λ0,1的增加,它们几乎呈线性下降。最后,当λ0,1=4时,0.95分位数实际上为零。(5)中的结果代表了用自适应套索证明有限样本推理有效性的关键条件。实际上,考虑自适应套索检验统计量Tλ,i(θ)*0i)具有临界值z1-α=c0,i,1-α. 然后,使用(5)可以简单地得出AsySz(θ*0i)=α,即自适应套索测试意味着一个正确的渐近大小。这一结果总结如下。推论4.1。设p+p+p=p<∞. 假设{Yt}和{Zt}是静态进程,比如npnt=1ZtZt→prC,其中C是满秩的非随机矩阵,以及√nPnt=1tZt→dN(0,Ohm), 对于某些协方差矩阵Ohm. 让0≤ λ < ∞, 设^θAL,λ为θ的自适应拉索估计*. 考虑检验统计量Tλ,i(θ)*0i)=√n |θAL,λ,i- θ*0i |,临界值为c0,i,1-α. 然后,零假设检验的渐近大小H0,i:θ*i=θ*0iversus the Alternative H1,i:θ*i6=θ*0isatis fiesasysz(θ)*0i)=α。

15
能者818 在职认证  发表于 2022-5-5 06:22:09
(6) 在基于自适应套索的推论4.1中使用结果很简单。为了检验零假设H0,iat将显著性水平α∈ (0,1)我们可以简单地使用自适应套索检验统计量Tλ,i(θ)*0i)=√n |θAL,λ,i- θ*0i |具有正常临界值c0,i,1-α.如(6)所述,该检验具有正确的渐近大小。这一结果表明,自适应ASSO可以将高效的参数估计、变量选择以及有效的有限样本推理结合在一起。5 Monte Carlo在本节中,我们使用Monte Carlo模拟来研究基于自适应套索的推理的准确性。特别是,我们考虑了五种不同的设置。为了满足定理3.1中的假设以及文献中的惯例,在蒙特卡罗实验中,我们选择了调谐参数λn∈ [0,n1/4]根据贝叶斯-施瓦茨信息准则(BIC)。设置1:p=p=p=5和T~iidN(0,1)。我们根据模型(1)生成N=5000个样本,其中p=p=p=5,ρ*= γ*= β*=0.3, ρ*= γ*= β*= 0.1和ρ*i=γ*i=β*i=0,因为i=3,4,5。我们考虑高斯误差项T~iidN(0,1)。此外,对于i=1,5和t=1,n、 让我们~iidN(0,1)和xi,t-1.~iidN(0,1)。模拟样本量分别为n=800和n=1600。在第一个练习中,我们研究了活动变量推理的准确性。更准确地说,利用定理3.1中的结果,我们构造了非零系数ρ的0.95置信区间*= γ*= β*= 0.3和ρ*= γ*= β*= 0.1. 经验覆盖率汇总在表1面板A中。在表1面板A的第一部分中,我们应用了OREM 3.1中的结果,没有偏差项^bAAL。

16
能者818 在职认证  发表于 2022-5-5 06:22:21
相比之下,在底部部分,我们使用偏差修正极限分布。[关于这里的表1。]在表1的顶部面板A中,我们注意到无校正项的自适应套索提供了参数ρ的精确推断*= γ*= β*= 0.3. 事实上,经验平均值非常接近名义覆盖率0.95。例如,当n=800时,ρ的经验覆盖率*, γ*和β*分别为0.9408、0.9478和0.9404。相反,参数ρ无校正项的自适应套索的经验覆盖率*= γ*= β*= 0.1轻微扭曲,且往往小于标称覆盖概率。例如,当n=800时,ρ的经验覆盖率*, γ*和β*分别为0.9234、0.9184和0.9158。在表1的底部面板A中,我们注意到偏差修正极限分布实质上提高了自适应套索推理的准确性。使用偏差修正极限分布的经验覆盖率总是比不使用偏差项^bAAL计算的经验覆盖率更接近名义覆盖率概率。特别值得注意的是,使用偏差校正分布,参数ρ的经验覆盖率*= γ*= β*= 0.1也非常接近0.95。例如,当n=800时,ρ的经验覆盖率*, γ*和β*分别为0.9496、0.9452和0.9456。因此,在这种情况下,名义覆盖率和名义覆盖率之间的差异始终小于0.005。这些结果表明,偏差修正极限分布对于改善系数接近零的小活动变量的参考尤其重要和有用。在第二个练习中,我们研究了引入的自适应套索测试对零假设H0,i:θ的有限样本功率*相对于备选方案H1,i=0,i:θ*i6=0,i=1,P

17
能者818 在职认证  发表于 2022-5-5 06:22:24
根据推论4.1中显著水平α=0.05的结果,H0的经验拒收频率报告在表1面板B中。首先,该表显示参数ρ*= γ*= β*= 0.3对于n=800和n=1600,我们总是拒绝完全假设。其次,我们注意到对于参数ρ*= γ*= β*= 0.1,随着n的增加,自适应套索测试的能力显著增加。因此,如果活动变量的系数很小且接近于零,则需要足够的数据,以便测试达到高功率值。例如,ρ*= 0.1对于n=800和n=1600,否定零假设的经验频率分别为0.7806和0.9744。最后,非活动变量的经验拒绝频率在0之间。02和0.035。理想情况下,这些情况下的正确值应等于测试大小的α=0.05。然而,我们的结果并不令人惊讶,有两个主要因素有助于解释我们发现的值(低于α)。首先,重要的是要记住,自适应套索将系数(尤其是非活动变量的系数)精确收缩到零。在这些情况下,不存在真正的渐近分布,因此,完全假设的非拒绝数变大。第二,我们引入的测试在每种结构中都是保守的:这意味着我们期望比理想条件下的测试更少地拒绝无效假设。p=5,T~iidt。在这种情况下,我们研究了引入的程序在处理带有较重尾巴的不同恐怖分布时的准确性。为此,我们根据模型(1)生成N=5000个样本,其参数值和协变量分布与初始设置中引入的相同。唯一的区别是我们假设T~iidt。

18
可人4 在职认证  发表于 2022-5-5 06:22:27
模拟样本量分别为n=800和n=1600。与之前的设置一样,我们分析了0.95-0.05置信区间的经验覆盖率。我们在这里测试了显著水平α=0.05的单一假设。然而,推论4.1中的结果也可用于进行多假设检验,以控制家庭错误率(FWER)(更多细节,请参见Lehmann和Romano(2005))。对于活动变量和自适应套索检验的有限样本幂,对于零假设H0,i:θ,α=0.05*相对于备选方案H1,i=0,i:θ*i6=0,i=1,p、 结果分别在表2的A组和B组中报告。[关于这里的表2。]表2面板A中的结果证实,基于偏差定向极限分布的自适应套索推理显著优于基于极限分布的推理,而无需进行有限样本偏差校正。例如,在表2面板A中,当n=1600时,ρ的经验覆盖率*, γ*和β*使用偏差校正的极限分布分别为0.9516、0.9442和0.9454。相比之下,ρ的经验覆盖率*, γ*和β*不含偏差项时,^bAALare分别为0.9418、0.9256和0.9280。同样在这种设置中,adaptivelasso提供了一种有效的统计工具,用于测试零假设H0,i:θ*i=0。事实上,在表2的B组中,我们注意到自适应套索检验总是拒绝ρ的零假设*= γ*= β*= 0.3,n=800和n=1600。此外,对接近零的小系数进行测试的能力可以是中等的,尤其是当没有足够的数据可用时。然而,随着n的增加,测试的功率显著增加。特别是在表2的面板B中,我们观察到当n=1600时,ρ的经验拒绝频率*, γ*和β*大于0.8。

19
大多数88 在职认证  发表于 2022-5-5 06:22:30
最后,在大多数情况下,非活动变量的错误拒绝比例在0.035左右,接近测试的α水平。设置3:p=p=p=5和GARCH错误项。在此背景下,我们研究了异方差误差项下自适应套索程序的精度。为此,我们根据模型(1)生成N=5000个样本,前两种设置中引入了相同的参数值和协变量分布。对于误差项,我们假设以下GARCH表示t=phtet,(7)ht=0.1+0.7ht-1+0.1ht-1et-1,(8)其中~iidt。模拟样本量分别为n=800和n=1600。我们执行与前两种设置相同类型的分析。结果分别报告在表3的面板A和面板B中。[关于这里的表3。]表3中的结果清楚地证实了前两种设置中出现的相同发现。首先,带有偏差修正项的自适应套索提供了非常接近标称覆盖概率的经验覆盖。其次,自适应套索为检验零假设H0,i:θ提供了有效的统计工具*存在异方差误差项时,i=0。设置4:p=1、p=20、p=0和T~iidN(0,1)。在这种情况下,我们研究了在具有异质预测强度的同期协变量的持续时间序列回归的情况下,自适应套索程序的性能。我们根据模型(1)生成N=5000个样本,其中p=1,p=20,p=0,ρ*= 0.9, γ*= 0.6, γ*= 0.5, γ*= 0.4, γ*= 0.3, γ*= 0.2, γ*= 0.1和γ*i=0,对于i=7,20.我们考虑高斯误差项T~iidN(0,1)。此外,对于i=1,20和t=1,n、 让我们~iidN(0,1)。模拟样本量分别为n=800和n=1600。在前面的设置中,我们执行相同的两个练习。

20
kedemingshi 在职认证  发表于 2022-5-5 06:22:33
我们首先关注经验平均值,并为参数ρ构建0.95置信区间*= 0.9, γ*= 0.6,γ*= 0.5, γ*= 0.4, γ*= 0.3, γ*= 0.2, γ*= 0.1. 在第二个练习中,我们研究了零假设H0,i:θ的自适应套索检验的有限样本能力*i=0与替代H1相比,i:θ*i6=0,i=1,p、 显著水平为α=0.05。表4总结了结果。[关于这里的表4。]表4面板A报告了活动变量的经验覆盖率。与之前的设置一样,在这种情况下,我们也可以观察到自适应套索为感兴趣的参数提供了有效的推断。特别是,带有偏差修正项的自适应套索的经验覆盖率总是非常接近标称覆盖概率。事实上,对于n=800和n=1600,经验覆盖率和名义覆盖率之间的差异小于0.01。另一方面,当感兴趣的参数接近零时,无偏差修正项的自适应套索的经验覆盖范围可能会发生轻微扭曲。例如,当n=800时,γ的经验覆盖率*= 0.1等于0.9094。此外,在这个设置中,我们在表4的面板B中显示,自适应套索为检验零假设H0,i:θ提供了一个有效的统计工具*相对于备选方案H1,i=0,i:θ*i6=0,i=1,p、 特别是,自适应套索检验总是拒绝ρ的零假设*γ*i、 i=1,5,当n=800和n=1600时。此外,当n=1600时,γ的自适应套索试验的功率*大于0.95。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 01:06