楼主: kedemingshi
2726 65

[量化金融] 统计性质的启发复杂性 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-5-8 10:27:46
一般来说,条件(L,Γ)∈ 对于充分允许的C,C为真,但条件elicC(Γ)=k仅适用于充分限制的C和充分丰富的P。因此,用相同的C满足这两个条件需要对手头的应用程序有一些了解。在讨论定理1的几个应用之前,我们首先介绍我们将关注的各种属性类C,并证明我们可以将所有这些类的下界收紧到k+1。2·4. 属性的类别正如我们在后面的备注4中所描述的,对C有一些限制是必要的,否则所有属性都将具有复杂性1。我们在这篇论文中重点讨论了C语言的四种自然选择,所有这些都是机器学习文献中感兴趣的,参见Agarwal&Agarwal(2015),并在§6中讨论了其他类别。简而言之,从限制性最强到限制性最弱,我们考虑的四类属性是:线性/期望值(Clin)、强凸损失(Cstrong)、光滑严格凸损失(Cstrict)和可识别(I)。所需的classC可能取决于应用程序;e、 例如,强凸性导致了有利的优化率和经验风险最小化的推广边界。我们现在正式定义这些类,从可识别性的概念开始。我们从命题1中看到,可导性质具有凸水平集。第一类可识别属性满足一个更强的条件:水平集不仅必须是凸的,而且必须是线性子空间与P的交集。这些线性子空间由识别函数编码(Osband,1985;Lambert et al.,2008;Steinwart et al.,2014)。我们采用的定义对应于Steinwart等人(2014)的“强”识别功能。定义6。

12
mingdashike22 在职认证  发表于 2022-5-8 10:27:49
为了k∈ N∪ {∞}, P-可积函数V:R×Y→ RK是Γ:P的识别函数→ Rk,或标识Γ,如果适用于所有r∈ Γ(P),P∈ Γr<==> V(r,p)=0∈ Rk,而上面的L(r,p)我们写V(r,p)Ep[V(r,Y)]。Γ是可识别的,如果有人识别它。定义7。为了k∈ N∪ {∞}, 让Ik(P)表示所有可识别属性Γ:P的类别→ Rk和I(P)=Sk∈N∪{∞}Ik(P)。当P是隐式的时,我们只需写出I.6r.Frongillo和I.A.KashFor,例如V(R,y)=y- r确定平均值Γ(p)=Ep[Y]。更一般地说,某些φ:R的期望值Γ(p)=Ep[φ(Y)]→ Rkhas识别函数V(r,y)=r- φ(y)。类似地,当单值时,α分位数qα(p),α∈ (0,1),由V(r,y)=1Y确定≤R- α. 当Γ为集值时,我们可以扩展定义7,其中Γ(P)表示所有P的Γ(P)的并集∈ P.我们现在定义了其他三类房产。回想一下,一个可微分函数G:a→ R是u-强凸的,如果对于所有x,y∈ A我们有ukx- yk≤ (G(x)- G(y))·(x- y) 。定义8。设Clin表示有界线性性质的类别,即形式为Γ:P7的性质→ 关于某些P-可积φ:Y的Ep[φ(Y)]→ Rk,k∈ N∪ {∞}, 式中R:=Γ(P) 这里有很多布景。当k=∞, 我们使用k·k和Fr′echet导数;参见§A.让Cstrictdenote成为有界性质类Γ:P→ R由损失函数导出,该函数在第一个参数中是可微分的、Lipschitz连续的、严格凸的。全班同学都很兴奋 Cstrictfurther要求损失在第一个论点中是强凸的。正如上面提到的,我们的四个类是嵌套的,因此每个复杂度的下限是下一个。我们只有Cstrict 我是因为我们要求在科学上有差异;消除这一限制并研究一般的凸损耗是一个重要的未来方向(§6)。提议2。我们有Clin Cstrong 严格的 我

13
可人4 在职认证  发表于 2022-5-8 10:27:52
特别是,对于所有属性Γ,我们有elicI(Γ)≤ ElicCrict(Γ)≤ 埃利克斯特朗(Γ)≤ 伊莱克林(Γ)。尽管在k=∞. 在应用我们的结果时,我们将广泛使用这些关系。特别是,像I这样限制较少的类的下界更强,而像Clin这样限制更严格的类的上界更强。此外,正如我们将在§5中证明的那样,我们所考虑的所有类别都承认elicC(L)的下限更紧≥ k+1,根据定理1给出等式。这个更紧的下界和更慢的下界依赖于P足够丰富。以下提供了一个有效的条件。条件1。让我们∈ Ik(P)和r∈ Γ(P)被给出。存在一些识别函数v:Γ(P)×Y→ 使得0∈ int{V(r,p):p∈ P} 。条件1是Fissler和Ziegel(2016)假设V1的较弱版本,因为我们的假设适用于特定的r,而他们的假设在Γ(P)的内部使用了r的通用量词。正如他们通过大量例子指出的那样,这种情况在关于启发的文献中经常出现。在这个条件下,我们可以说明更紧的界限。提议3。让L:Rk×Y→ R是一种引起Γ的损失∈ Ik,k∈ N.如果Γ满足某些r的条件1∈ Γ(P),L在Γr上是非常数,那么elicI(L)=k+1。如果另外(L,Γ)∈ C代表一些C 一、 然后elicC(L)=k+1.3。示例和应用3·1。我们现在给出我们定理的几个应用。有几个上界是新的,以及所有大于1的下界。除非另有说明,否则我们将取Y=R。在每种设置中,我们也会做出一些标准的规律性假设,为了便于解释,我们会抑制这些假设;例如,对于方差和方差,我们假设有限的第一和第二时刻。

14
mingdashike22 在职认证  发表于 2022-5-8 10:27:56
所有应用程序也要求P在某种意义上“足够丰富”,通常是为了建立elicC(Γ)=k,这通常是一个轻微的限制。例如,在许多情况下,我们的结果适用于任何包含高斯分布的所有有限混合物集GMIX的P。我们将把这些丰富性条件推迟到下一节,特别是条件2和3,并参考使用这些定义建立基本复杂性界限的结果,如引理7和6。关于省略的证明和其他细节,请参见附录B.统计特性的启发复杂性73·2。方差在定义4之后,我们注意到方差是一阶矩和二阶矩的函数,二阶矩都是线性性质,因此我们得出了elicClin(Var)≤ 2.作为一个热身,让我们看看如何应用你的主要定理来恢复这个语句以及匹配的下限。如上所述,我们可以将方差视为损失平方L(r,y)=(r)的贝叶斯风险- y) ,这当然引出了平均值。由于均值是可识别的,且方差不只是均值的函数,命题3给出了elicI(Var)=2。此外,我们可以直接建立elicClin(Var)≤ 2.让^Γ(p)={Ep[Y],Ep[Y]}成为第一和第二时刻,我们有^Γ∈ 和Var=fo^Γ代表f:(r,r)7→ R- r、 命题2给出了ClinandI之间任何C类的elicC(Var)=2,包括所有C类∈ {Clin,Cstrong,Cstrict,I}。推论1。设P包含Gmix,或任何一组分布,使得(i)条件1保持平均值Γ:p7→ Ep[Y]和一些r∈ R、 和(ii)有两种分布,其平均R方差不同。然后elicC(Var)=2表示所有临床 C I.通过方差,我们可以观察到定理1并不总是给出损失函数的完整特征,从而引出(L,Γ)。

15
可人4 在职认证  发表于 2022-5-8 10:27:59
对于(Var,E[Y]),而定理1产生了损失,如*((r,a,y)=e-r((a)- y)- r)- E-r、 有一些损失无法用表(1)表示。也许最自然的例子是,L*((r,a),y)=(a)- y) +(r+a)- y) ,(2)通过应用可逆链接函数(m,m)7给出→ (m,m- m) 损失^L((m,m),y)=(m)- y) +(m)- y) ,由此引出上面的^Γ。最后,一个人可能会被诱惑去嵌套平方损失L*((r,a),y)=(a)- y)- r) ,这与等式(2)相似,但即使在移除(a)之后- y) 由于(a)的系数- y) 这是负面的。3·3. 熵和范数为了证明我们的框架能够证明某些感兴趣的属性本质上很难引出,可以考虑引出一个分布的熵或范数。两者都被用作信息或不一致性的度量,并以其相对形式作为距离的度量。我们发现,它们具有最大的启发复杂性,这意味着没有比首先启发完整分布更好的方法来证明它们。这一结果是对属性的启发复杂性进行更一般化描述的结果,这种复杂性可以写成导致线性属性(即期望)的损失的贝叶斯风险。熵的概念,作为衡量无序性、随机性、信息等的标准,出现在整个科学领域。作为Y=R上的分布函数,允许连续密度p,一些标准示例包括香农熵H(p)=-RYp(y)log p(y)dy,Tsallis/Havrda–Charv'at熵HHC(p)=1-α(1 -RYp(y)αdy)表示α6=1,且R′enyi entropyHR(p)=1-α的αlog(RYp(y)αdy)≥ 0, α 6= 1. 每一个凹熵函数也会产生一个相对其他分布q的相应熵,最常见的例子是Kullback–Leibler散度DKL(pkq)=R∞-∞p(x)logp(x)q(x)dx。

16
mingdashike22 在职认证  发表于 2022-5-8 10:28:02
类似地,分布的范数也是普遍存在的,例如β>0的标准kpkβ=(RYp(y)βdy)1/β,并以相关形式用于测量与其他分布q的距离∞, 我们简单地用和替换积分,使H(p)=-Py∈Yp(y)对数p(y)和kpkβ=(Py∈Yp(y)β)1/β。本质上,所有这些熵和范数都具有最大的启发复杂性,很难像分布本身一样进行启发,即性质Γid:p7→ p、 根据正确评分规则(Gneiting&Raftery,2007)中的标准结果,任何严格凹函数G:p→ R是某些严格适当损失lg的Bayes风险L(p)=EpLG(p,Y),由此引出Γid。例如,香农熵是对数损失的Bayes风险,L(p,Y)=- logp(y),由此引出Γid。此外,在适当的丰富度条件下,我们得到elicC(Γid)=∞ 为了所有的临床 C 引理7的I,orelicC(Γid)=|Y |- 1当Y是有限集时。最后,因为显然G=Go Γid,从定理4中得出的主要下界的结果,给出了所有C.8 R.Frongillo和I.A.KashCorollary 2的elicC(L)=elicC(Γid)。让C满足Clin C 一、 让G:P→ R必须是严格凸的。ThenelicC(G)=elicC(Γid)。如果| Y |∞ P是概率单纯形,elicC(G)=Y |- 1.如果Y=Rand P是满足适当丰富度条件的Lebesgue密度的凸族,如图7所示,则elicC(G)=∞.当我们选择使其严格凹或凸的参数时,推论2适用于上述熵和范数,即HHC为α<1,HR为α6=1,β>1(Rao,1984)。其结果推广到任何严格凸函数的期望值,如§C·3所述。关于多观测损失的相关讨论,另见§E·1(Casalaina Martin等人,2017年)。

17
能者818 在职认证  发表于 2022-5-8 10:28:07
预期缺口、光谱风险度量和风险范围值我们的结果在贝叶斯风险的启发复杂性方面的一个重要应用是各种金融风险度量的合理性。最流行的金融风险度量方法之一是预期缺口ESα:P→ R、 也称为条件风险价值(CVaR)或平均风险价值(AVaR),我们定义如下:;参考F¨ollmer&Weber(2015,公式(18)),Rockafellar&Uryasev(2013,公式(3.21))。ESα(p)=infz∈REpα(z)- Y)1z≥Y- Z= infz∈REpα(z)- Y)(1z≥Y- α) - Y. (3) 我们假设Y=R+,非负实,并限制α∈ (0, 1); α=1见下文。尽管可诱导性对金融监管很重要(Emmer等人,2015;Fissler等人,2016),但ESα是不可诱导的(Gneiting,2011)。然而,最近Fissler和Ziegel(2016)证明,elicI(ESα)≤ 2.他们还考虑了更广泛的光谱风险度量,可以表示为ρu(p)=R(0,1)ESα(p)du(α),其中u是(0,1)上的概率度量;参见F–ollmer&Weber(2015年,公式(36))。在有限支持的情况下,u=Pki=1βiδαi,对于不同的点分布δαi,βi>0,我们可以使用上述公式重写ρu:ρu(p)=kXi=1βiESαi(p)=infz∈Rk(Ep“kXi=1βiαi(zi- Y)(1zi≥Y- αi)- Y#)。(4) Fissler和Ziegel然后得出elicI(ρu)≤ k+1。我们展示了如何恢复这些结果以及匹配下限。设pq是R上的概率测度集,单值分位数在(0,1)范围内,即支持的onan区间,其CDF在该区间上严格增加。众所周知,式(4)中的最小值由k个不同的分位数qα(p)实现,qαk(p)。因此,我们可以将ρu表示为贝叶斯风险;特别是,ρu(p)=L(p),对于给定的损耗L:Rk×R+,byL(z,y)=kXi=1βiαi(zi)- y) (1字≥Y- αi)- y,(5)由此引出Γ(p)={qα(p),…,qαk(p)}。

18
mingdashike22 在职认证  发表于 2022-5-8 10:28:10
由于Γ可以通过对P的假设来识别,当P足够丰富时,我们有elicI(Γ)=k,如引理6中所示,命题3给出了elicI(ρu)=k+1。特别地,性质{ρu,qα,…,qαk}是可导出的。此外,在§B·3中,我们证明了定理1中的损失家族与Fissler和Ziegel(2016)的特征一致。推论3。让P Pqbe非常丰富,如引理6中所述,并包含所有帕累托分布的混合物,或任何一组分布,其中给定分位数向量qα(p)至少有两个可能的ρu值,qαk(p)。然后elicI(ρu)=k+1。与前面的例子不同,这里我们只有当C=I时才有一个紧的结果,而我们有elicc(ρu)≥ k+1表示任何C 一、 包括Cstrict、Cstrong和Clin类,上界lc(ρu)≤ 在这四个类中,k+1仅适用于C=I。这种差异的原因很简单,就是定理1中的损失不是严格凸的,因此条件(ρu,Γ)∈ C不是为C建立的 Cstrict。统计特性的启发复杂性9注3。当α=1时,我们有ES(p)=Ep[-Y],因此elicI(ρu)=1表示u({1})=1。此外,当u({1})∈ (0,1),我们简单地用L(z,y)=Pk替换等式(5)中的损失-1i=1βiαi(zi-y) (1字≥Y- αi)- (1+βk)y,当u({1})>0时产生elicI(ρu)=k的界,而当u({1})=0时产生toelicI(ρu)=k+1的界;参见Fissler&Ziegel(2016,推论5.4(ii))。最后,与我们的工作同时,Fissler和Ziegel(2019a)给出了范围值atRisk(RVaR)的一个结果,这促使我们对上界定理3进行了某种推广。

19
能者818 在职认证  发表于 2022-5-8 10:28:13
考虑到VaR和ES之间的折衷,对于0<α<β<1,RVaRα,β(p):=β,RVaR定义如下:- αZβαVaRλ(p)dλ=βESβ(p)- αESα(p)β- α、 (6)当右手边被定义时,第二个等式成立(Fissler&Ziegel,2019a)。如上所述,虽然ES是一种Bayes风险,但表(6)与Bayes风险不同,因此表1不适用。上面关于ES的复杂性的讨论,以及下面关于elicC的次可加性的引理2,仍然给出了elicI(RVaRα,β)≤ elicI(ESα)+elicI(ESβ)=4,作者注意到这一点已在实践中得到观察和使用;具体地说,四倍体(VaRα,VaRβ,ESα,ESβ)是可以引出的。作者通过证明(VaRα,VaRβ,RVaRα,β)是可诱导的,从而改进了这种复杂性,因此elicI(RVaRα,β)≤ 3.参见Wang and Wei(2018)在符号Choquet积分的更广泛背景下对该结果的回顾。这个有趣的例子给出了定理1上界的一个推广:贝叶斯风险的线性组合以及相应的性质是可导出的。证明(§B·1)采用了定理1和附加项,以解释可能的负系数。定理2。每一次我∈ {1,…,m}让李:Rki×Y→ R是引起Γi:P的损失→ Rki和Bayes risk Li。对于αi,设γ(p)=Pmi=1αiLi(p)∈ R\\{0}。那么{γ,Γ,…,Γm}是可引出的。特别地,如果{γ,Γ,…,Γm}∈ C、 elicC(γ)≤Pmi=1ki+1。回到RVaR,我们有Γ=VaRα,L=ESα,Γ=VaRβ,L=ESβ,取α=α/(α)- β) <0且α=β/(β)- α) > 0. 定理2随后恢复了(VaRα,VaRβ,RVaRα,β)和elicI(RVaRα,β)的可引出性≤ 3.此外,损失函数的范围(§B·1,§B·3)与Fissler和Ziegel(2019a)的发现相匹配。

20
能者818 在职认证  发表于 2022-5-8 10:28:17
然而,与我们的其他例子不同,目前尚不清楚如何证明RVaR或其他贝叶斯风险线性组合的复杂性下限;这是未来工作的一个有趣方向。3·5. 一种新的风险度量:方差τ-expectile,表示为μτ,是Newey和Powell(1987)引入的一种广义分位数,定义为方程Ep[|1x]的解x≥Y- τ|(x)- Y)]=0,其中τ∈ (0,1),这也显示了μτ∈ I.这里我们提出了τ-方差,这是一种类似于τ-期望值的非对称类方差度量:正如平均值是方程Ep[x]的解x=u一样- Y]=0,方差为Var(p)=Ep[(u- Y)],我们通过Varτ(p)=2Ep来定义τ-方差Varτ|1uτ≥Y- τ |(uτ- Y). 由于期望值可以被认为是均值和分位数之间的折衷,方差可以被认为是由τ=0.5恢复的方差和“超分位数”方差之间的折衷;见§3.4。因此,方差可以作为一种新的可处理的风险度量方法来应用。(在最后准备发表本文的过程中,我们了解到,韦虎和郑振龙之前在未发表的作品中提出了同样的概念,称之为“变体”。)众所周知,μτ可以表示为非对称最小二乘问题的极小值:损失L(x,y)=1x≥Y- τ|(x)- y) 引出τ(Newey&Powell,1987;Gneiting,2011)。因此,由于方差实际上是均值的Bayes风险,因此τ-期望值的τ-方差也是:τμ(p)=argminx∈R2Ep|1x≥Y- τ|(x)- Y)Varτ(p)=minx∈R2Ep|1x≥Y- τ|(x)- Y).10 R.Frongillo和I.A.KashWe现在看到{uτ,Varτ}对可由定理1导出,并作为uτ∈ 我们从命题3中得到了关于I的紧复杂度界。此外,如果Y是有界的,我们有{uτ,Varτ}∈ CST来自下面的命题7,它给出了损失L*在等式中。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 15:40