|
正如我们将看到的,散度惩罚将simplex+ridge作为特例,但它也引入了丰富的新可能性。将估计器写成^ω=arg minω-TXt=1logKXk=1ωkfk,t(yt)!|{z}对数分数+λD(ω,ω)*)| {z}惩罚(7) s.t.ωk∈ [0,1],KXk=1ωk=1,其中D(ω,ω*) 是w和w之间差异的度量*. 关键的见解是,一旦施加了单纯形限制,ω就可以解释为{1,2,…,K}上的离散概率测度。如果我们让ω*如果是每个时间点上权重为1/K的均匀概率质量函数,则惩罚优化(7)将解决方案缩小为等权重。保持一致ω*贯穿始终,但使用不同的散度度量D(ω,ω*),我们得到了新的正则化估计。例如:1。Lnorm,D(ω,ω)*) =KXk=1ωk-K,产生(5)和(6)中给出的单纯形加平均主义岭惩罚。Lnorm(总变化),D(ω,ω)*) =KXk=1ωk-K,产生单一加平等套索惩罚(迪博尔德和申,2019年)。从ω到ω的Kullback-Leibler散度(熵)*,D(ω,ω)*) = - 日志K-KXk=1logωk,产生“单纯形+熵”惩罚,-PKk=1logωk。在附录A中,我们正式展示了单纯形+熵正则化估计,^ω=arg minω-TXt=1logKXk=1ωkfk,t(yt)!|{z}对数分数+λ-KXk=1log(ωk)!|{z}熵惩罚(8) s.t.ωk∈ (0,1),KXk=1ωk=1,作为贝叶斯分析中的后验模式出现,具有对数分数(伪)似然性和狄里克莱先验,它仅对单位单纯形赋予正概率,并且对于特定的超参数配置,也使权重趋于相等。4.
|