楼主: 可人4
1810 34

[经济学] 关于概率评估的集合:正则混合 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-4-26 15:32:19
注意,由于单纯形约束,解决方案可能会放弃一些预测(如果不完全为零,则将一些权重设置为近似值),但随着λ的增加,这种情况变得越来越不可能,从而将权重拉向相等。我们可以将(5)重写为^ω=arg minω-TXt=1logKXk=1ωkfk,t(yt)!|{z}对数分数+λKXk=1 |ωk |- 1!| {z}Lsimplex/套索惩罚+λKXk=1ωk-K!| {z}Lridge惩罚,(6) s.t.ωk∈ [0,1],它强调了单纯形+山脊正则化涉及土地利用的组合。然而,请注意,我们不能自由选择λ,因为一个约束的和必须绑定;相反,对于“足够大”λ,等式(5)和(6)重合。方程(6)反过来揭示了单纯形+岭正则化与透明度密切相关,我们使用对数分数目标进行大多数论证。等式(6)还表明,单纯形+脊形与附加惩罚版本的偏袒性套索(Diebold and Shin,2019)密切相关,但与以L(脊形)形式而非L(套索)形式进行的平等惩罚密切相关。邹和黑斯蒂的弹性网(2005)。弹性净惩罚isP enalty(ω)=αKXk=1 |ωk | |{z}LLASSO惩罚+(1)-α) KXk=1ωk |{z}Lridge惩罚,其中α∈[0,1]是一个参数,因此弹性网也涉及土地L(即套索/单纯形和山脊)惩罚的组合。众所周知,弹性网络能够很好地处理具有许多相关预测因子的正则化问题,这正是我们关注的大型经济预测集的相关情况。3.3单纯形+发散在这里,我们从单纯形+脊移动到单纯形加上基于两个离散概率测度之间发散的一般惩罚。

12
kedemingshi 在职认证  发表于 2022-4-26 15:32:25
正如我们将看到的,散度惩罚将simplex+ridge作为特例,但它也引入了丰富的新可能性。将估计器写成^ω=arg minω-TXt=1logKXk=1ωkfk,t(yt)!|{z}对数分数+λD(ω,ω)*)| {z}惩罚(7) s.t.ωk∈ [0,1],KXk=1ωk=1,其中D(ω,ω*) 是w和w之间差异的度量*. 关键的见解是,一旦施加了单纯形限制,ω就可以解释为{1,2,…,K}上的离散概率测度。如果我们让ω*如果是每个时间点上权重为1/K的均匀概率质量函数,则惩罚优化(7)将解决方案缩小为等权重。保持一致ω*贯穿始终,但使用不同的散度度量D(ω,ω*),我们得到了新的正则化估计。例如:1。Lnorm,D(ω,ω)*) =KXk=1ωk-K,产生(5)和(6)中给出的单纯形加平均主义岭惩罚。Lnorm(总变化),D(ω,ω)*) =KXk=1ωk-K,产生单一加平等套索惩罚(迪博尔德和申,2019年)。从ω到ω的Kullback-Leibler散度(熵)*,D(ω,ω)*) = - 日志K-KXk=1logωk,产生“单纯形+熵”惩罚,-PKk=1logωk。在附录A中,我们正式展示了单纯形+熵正则化估计,^ω=arg minω-TXt=1logKXk=1ωkfk,t(yt)!|{z}对数分数+λ-KXk=1log(ωk)!|{z}熵惩罚(8) s.t.ωk∈ (0,1),KXk=1ωk=1,作为贝叶斯分析中的后验模式出现,具有对数分数(伪)似然性和狄里克莱先验,它仅对单位单纯形赋予正概率,并且对于特定的超参数配置,也使权重趋于相等。4.

13
mingdashike22 在职认证  发表于 2022-4-26 15:32:31
α阶从ω到ω的R′enyi散度*,Dα(ω)*||ω) =α - 1logKXk=11/Kαωα-1k!,包含各种统计发散,包括Kullback-Leibler发散(α=1)和Hellinger距离(α=2),可用于产生更有趣的正则化估计量。所有上述散度函数都将密度混合权重缩小到相等,此外,R’enyi散度相当于Cressie Read Difference,直至a ffine变换。从而促进将更多的预报员纳入规则化的混合物中。重要的是,定义正则化估计(7)的优化是凸的,只要D(ω,ω*) 是ω的凸函数,因为对数分数和单纯形约束是ω的凸函数。这使得估计器的数值计算变得简单。3.4部分平均主义套索和子集AveragingOne可能需要部分平均主义惩罚的密度预测版本,正如Diebold和Shin(2019)针对点预测案例所开发的那样。部分伽利略岭或套索的加法形式是可能的,因为其解在原理上是可计算的。要了解这一点,请考虑单纯形约束的部分平均主义岭问题:^ω=minw-TXt=1logKXk=1wkfk,t(yt)!+λKXk=1工作-δ(w)!(9) 科技工作∈ [0,1],KXk=1wk=1,其中δ(ω)是ω中非零元素的数量。解的计算过程如下:1。我们将κ定义为要包括的预测者的数量。2.对于κ的特定值(在κ=1,2,3,…,K之间),存在CKκ预测因子的可能组合。3.对于第j个这样的组合(j=1,2,…,CKκ),我们求解*(κ,j)=minwj-TXt=1logKXk=1wjkfk,t(yt)!+λKXk=1wjk-δ(w)!s、 t.wjk∈ [0,1],KXk=1wjk=1,其中,如果在第j个组合中未选择第k个预报员,则wjk为零。

14
可人4 在职认证  发表于 2022-4-26 15:32:37
在这种情况下,一些权重被强制为零,因此惩罚项减少到λKXk=1wjk-δ(w)= λXk∈Nwjk-κ,其中N={k:wjk6=0}。对于一组特定的预言者来说,这只是部分的平等主义山脊。4.原始部分平均主义岭问题的解是arg minκ,jL*(κ,j)。然而,不幸的是,计算成本是巨大的,因为我们需要求解惩罚优化nK=PKκ=1CKκ次。例如,当K=20时,nK=1048575。因此,密度混合料施工的部分平均主义程序通常是不可行的。然而,有一个非常重要的例外。Asλ→∞ 在方程(9)中,部分广义估计收敛到一个直接子集平均过程,符合Elliott(2011)的精神,该过程易于计算,并自动施加单纯形约束。子集平均法的思想很简单:每次向前滚动,我们都会简单地找到历史上表现最好的平均值,并使用它。第一个变量是“最佳N-平均值”。每次我们都要确定历史上表现最好的N预测平均值,并使用它。第二种变体是“最佳”≤Nmax平均值”。每次我们都会确定历史上表现最好的≤Nmax预测平均值并使用它。原则上,子集平均计算时间可能很长,具体取决于K和n(或Nmax)。对于K个预测者,要找到最佳的N-平均值,需要计算KCNSIMPLE平均值,然后对它们进行排序,以确定每个时段的最小值。best的PerPerPeriod计算负担≤Nmax预测平均值仍然更大,因为我们现在考虑的是所有子集,而不仅仅是大小为N的子集。幸运的是,在典型的经济预测组合中,相关的K和Nmax非常小。例如,在我们随后的经验工作中,Nmax≤4似乎足够了,我们有K=19。

15
nandehutu2022 在职认证  发表于 2022-4-26 15:32:43
最好的≤4因此,最大平均值组合需要对每个周期的平均值C+C+C+C=5035进行评估和排序。3.5讨论需要强调的是,我们的规则化混合密度预测不仅仅是对现有组合点预测方法的直接修改。它们以重要而有趣的方式进行区分。1.目标函数发生变化。在密度情况下,“预测误差”和“平方误差之和”之类的东西是不明确的。必须使用适当的密度预测评分规则。我们强调了几个方面,包括日志分数、Brier分数和排名分数。2.惩罚函数发生变化。(a) 当形成密度预测的混合时,必须引入单位单纯形约束,它的副作用是证明某种正则化。(b) 通过将混合权重视为离散概率分布,密度预测的混合允许新的正则化惩罚,这些惩罚与保持的单纯形约束密切相关。我们引入了几个这样的惩罚,强调了库尔贝克-莱布尔距离(熵)。最后(我们还没有注意到这一点),一旦施加了单纯形约束,通常没有必要将正则化惩罚集中在相等的权重上。无论哪种方式,都会导致重量相等的收缩。例如,考虑等式(5)中的岭+单纯形惩罚,并考虑以相等的权重为中心,与以0为中心相比。

16
kedemingshi 在职认证  发表于 2022-4-26 15:32:49
没有区别,因为ekxk=1ωk-K=KXk=1ωk-KKXk=1ωk+k=KXk=1ωk+1- 2KK,(10),其中最后一个等式是由于simplexconstraint中嵌入的一个限制的和。直觉是,当总和保持为一个限制时,向0收缩是不可能的,并且相等的权重尽可能接近0。4 Monte CarloWe现在通过一个小型的Monte Carloa分析来探索正则化混合估计的潜力。我们假设预报员已知的数据生成过程(DGP)是:yt=xt+σyet,et~ iid N(0,1)xt=φxxt-1+σxvt,vt~ iid N(0,1),(11),其中e和v在所有超前和滞后处都是正交的。y是要预测的变量,XT可以解释为yt的长期组成部分。单个预测者得到的结果是不均匀的事实上,只要所有权重集中在同一个值上(不必为1/K),并且权重的总和被限制为有界实值(不必为1),这种等价性就成立。表1:DGP 1调节组L#λ的平均对数分数*单纯形-1.31 5.27 NASimplex+脊线-1.15 20.00 2511.25单纯形+熵-1.15 20.00 5.22子集平均值L#λ*最佳N平均值:N=1-2.64 1.00 NAN=2-1.59 2.00 NAN=3-1.37 3.00 NAN=4-1.29 4.00 NAN=5-1.23 5.00 NAN=6-1.22 6.00 NAN=7-1.21 7.00 NAN=8-1.20 8.00 NAN=9-1.18 9.00 NAN=10-1.18 10.00 NAN=15-1.16 15.00 NAN=20.00 NABest≤2-平均-1.61 2.00纳贝斯特≤3-平均-1.42 2.84纳贝斯特≤5-平均-1.34 3.63纳贝斯特≤10平均-1.33 3.71纳贝斯特≤15平均-1.33 3.71纳贝斯特≤20平均-1.33 3.71 N比较L#λ*最佳-0.24 1 NA95百分位-0.53 1 NAMedian-1.40 1 NA5百分位-4.16 1 NABEST-12.19 1 NASimple K-平均-1.15 20纳米:L是平均日志分数,#是选择的预测员的平均数量,λ*是事后最优惩罚参数,K是预测者的总数。

17
可人4 在职认证  发表于 2022-4-26 15:32:57
我们进行了10000次蒙特卡罗复制。表2:DGP 2调节组L#λ的平均对数分数*单纯形-1.29 4.74 NASimplex+脊线-1.19 8.65 15.00单纯形+熵-1.27 20.00 0.05子集平均值L#λ*最佳N平均值:N=1-2.65 1.00 NAN=2-1.57 2.00 NAN=3-1.34 3.00 NAN=4-1.26 4.00 NAN=5-1.21 5.00 NAN=6-1.19 6.00 NAN=7-1.19 7.00 NAN=8-1.18 8.00 NAN=9-1.18 9.00 NAN=10-1.18 10.00 NAN=15-1.46 15.00 NAN=20-1.64 NABest≤2-平均-1.57 2.00纳贝斯特≤3-平均-1.39 2.83纳贝斯特≤5-平均-1.33 3.46纳贝斯特≤10平均-1.33 3.51纳贝斯特≤15平均-1.33 3.51纳贝斯特≤20平均-1.33 3.51 n比较L#λ*最佳-0.28 1 NA95百分位-0.98 1 NAMedian-3.79 1 NA5百分位-32.69 1 NABEST-182.42 1 NASimple K-平均-1.64 20纳米:L是平均日志分数,#是选择的预测员的平均数量,λ*是事后最优惩罚参数,K是预测者的总数。我们进行了10000次蒙特卡罗复制。图1:预期混合物性能与惩罚强度的蒙特卡罗估计:我们进行了10000次蒙特卡罗复制。关于xt的独立噪声信号。对于预报员k,我们有zkt=xt+σzkηkt,ηkt~ iid N(0,1),(12),其中η和ηkare在所有预测者k和k的所有超前和滞后处都是正交的。假设预测者强烈相信1步预测密度是方差σy的高斯分布,但他们不知道其平均值,因此预测者k使用szkt,从而得出预测密度kt(yt+1)=N(φzkt,σy)。(13) 请注意,在这种环境下,预报员的预测密度仅因其位置(平均值)而异。我们考虑两种参数化:1。DGP 1:对于所有k2,σzk=1。DGP 2:k=1,2,…,的σzk=1。。。,k=k+1,…,kσzk=5。。。,K、 其中,每个DGP都有公共参数φx=0.9,σx=1,σy=0.5。

18
能者818 在职认证  发表于 2022-4-26 15:33:03
这两个DGP不同于预报员接收到的信号质量。在DGP 1下,应首选简单平均值,因为所有信号都具有相同的质量,而在DGP 2下,应首选线性负相关规则(至少是渐进的,以便估计误差消失),为预测者k=1,2。。。,K、 他们接收到更好的信号。为了与我们随后的实证工作保持一致,我们探索了K=T=20。我们生成数据,估计混合权重,生成提前一步的混合密度,并使用对数分数目标对其进行评估。我们重复这10000次,并计算几种方法的平均LPS:1。简单平均2。单纯形(方程式(4))3。单纯形+脊形(方程式(5))4。单纯形+熵(方程式(8))5。带λ的子集平均(等式(9)→∞).对于单纯形+脊和单纯形+熵,我们探索了20种惩罚强度。对于Simplex+ridge,我们在[1e-15,10]中选择10个等间距点,在[1510000]中选择10个等间距点。对于单纯形+熵,我们在[1e-15,0.2]中选择10个等距点,在[0.3,20]中选择10个等距点。数值结果见表1和表2,其中我们分别给出了DGPs 1和2下每种方法的优化平均对数分数。图形结果如图1所示,其中我们分别显示了在DGPs 1和DGPs 2下,优化分数如何随正则化惩罚强度变化。在DGP 1下,简单平均性能良好,而未经规范化的单纯形性能较差,正如预期的那样。随着收缩强度变大,单纯形+熵和单纯形+脊的性能单调提高,直到它们的性能与简单平均值(完全收缩)一样。此外,随着收缩强度的增加,simplex+熵的性能比simplex+脊的性能提高得更快,并且始终占主导地位。

19
何人来此 在职认证  发表于 2022-4-26 15:33:09
最后,子集平均在DGP 1下的表现令人钦佩,正如预期的那样,最优“子集”包括所有预测者。在DGP 2下,单纯形预计表现良好,而简单平均预计表现不佳。单纯形确实优于简单平均法。此外,单纯形+脊和单纯形+熵的行为与预期一致。对于小收缩率(向左),其性能与单纯形相似;对于大收缩率(向右),其性能与简单平均值相似。在两者之间,对于适度的收缩,它们的表现优于simplex。在该区域,正则化单纯形改进了非正则化单纯形,因为较大的非正则化单纯形估计误差使得一些相关的预报员很可能被从池中删除,而正则化将他们带回来。重要的是,在DGP 2下,子集平均仍然表现出色,但正如预期的那样,现在最佳平均只涉及10个左右的预报员。需要注意的是,表1和表2以及图1中记录的性能在实践中几乎肯定无法实现,因为它需要事后全知(对正则化估计使用事后最优惩罚参数,对N-平均值使用暴露最优N)尽管如此,研究结果还是提供了信息,因为它们记录了原则上可以实现的目标,即使在实践中无法实现。

20
kedemingshi 在职认证  发表于 2022-4-26 15:33:15
实际表现是一个经验问题,我们现在将其详细应用于欧元区通货膨胀和实际利率的密度预测。图2:2004年第四季度(左)和2018年第四季度(右)欧元区通货膨胀的个人和平均密度预测注:我们以灰色(频率多边形)显示个人调查预测,欧元区通货膨胀和实际利率预测我们使用我们的方法来构建欧元区通货膨胀和实际利率密度预测的规则化混合。预期通货膨胀通过其对名义利率的直接影响而成为债券市场的关键驱动力。正如布雷西亚尼·图罗尼(Bresciani Turroni,1937年)所经典强调的那样,预期的通货膨胀也可能会对实际增长产生负面影响,从而影响股票市场,因为它“把沙子放进了沃尔拉斯的齿轮”。此外,高流动性也可能是挥发性的(Friedman,1977),这会增加额外的沙子。预期通货膨胀也是事前实际利率的一个关键部分,而实际利率反过来又是跨期分配的关键指南,也是宏观经济基本面和金融市场之间的关键联系。因此,从各种角度来看,通货膨胀预测对金融市场、宏观经济和界面至关重要。5.1数据继Con-Fitti等人(2015)开创性的工作之后,我们研究了自1999年以来进行的欧洲央行专业预测员调查(ECB-SPF)中的通货膨胀密度预测。参与者在1月、4月、7月进行季度调查,另见Chen等人(1986年)。十月。我们的预测样本包含83个季度调查,从1999年第一季度开始,到2009年第三季度结束。作为数据的一部分,在图2中,我们展示了两个说明性调查(2004年第4季度、2018年第4季度)的所有预测,用频率多项式表示,简单平均预测用柱状图表示。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-29 08:29