人大经济论坛 › 论坛 › 经济学人二区 › 外文文献专区 › 统计性质的启发复杂性

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: kedemingshi

1566 65

[量化金融] 统计性质的启发复杂性 [推广有奖]

21楼

mingdashike22

发表于 2022-5-8 10:28:21 |只看作者 |坛友微信交流群

（1）可以认为是强凸的；在这种情况下，我们对CstRong和CstRictas有严格的界限。完整证据见§B·4。推论4。设P包含Gmix，或任何一组分布，使得（i）条件1适用于τ-期望值和一些r∈ R、（ii）至少有两个分布具有τ-期望值，但τ-方差不同。然后elicI（Varτ）=2。如果你不喜欢 R是有界的，因此排除了Gmix，然后对于所有满足Cst的C，elicC（Varτ）=2 C I.更一般地说，Herrmann等人（2018年）引入了多元预期。观察到单变量非对称最小二乘可以写成L（x，y）=y- x |（| y- x |+（2τ）- 1）（y）- x）），他们通过用k·k和2τ替换|·|，将这种损失推广到更高的维度- 1现在是开放单位球中的任意向量，就像-1 < 2τ - 1 < 1. 这个损失的最小值是多元期望值u（k）τ（p），其中k是向量空间的维数。我们可以分析确定我们的多元变量；该对如下所示，u（k）τ（p）=argminx∈Rk2Ep[kY- xk（肯塔基州）- xk+hτ，Y- xi）]（7）Var（k）τ（p）=minx∈Rk2Ep[kY- xk（肯塔基州）- xk+hτ，Y- xi）]，（8）现在Y在哪里∈ Rk和τ∈ Rk是开放单位球中的向量，即kτk<1。我们再次得到了一个严格的复杂度界，就像在单变量情况下一样，对于I无条件成立，当Y有界时，对于cstric和cstrong也成立。推论5。设P包含Gmix或任何一组分布，使得（i）条件1适用于u（k）τ和一些r∈ Rk，和（ii）至少有两个分布p，p∈ P与u（k）τ（P）=u（k）τ（P）=r，但Var（k）τ（P）6=Var（k）τ（P）。然后elicI（Var（k）τ）=k+1。如果你不喜欢R是有界的，因此排除了Gmix，然后对于所有C和Cstrong C I.3.6。其他风险度量金融和工程领域的文献中也出现了一些其他风险度量。

使用道具举报

22楼

大多数88

发表于 2022-5-8 10:28:24 |只看作者 |坛友微信交流群

例如，考虑Rockafelland Uryasev（2013）的“风险四边形”所产生的广义风险度量，其由风险R、偏差D、误差E和统计量S之间的以下关系给出，所有函数从随机变量到实数：R（X）=minc∈R{c+E（X）- c） }，D（X）=minc∈R{E（X）- c） }，S（X）=argminc∈R{E（X）- c）哦。为E固定一个特定的形式，然后将其他三个固定在一起。我们的结果很容易应用于期望四边形情形，其中E（X）=E[E（X）]对于某些E:R→ 这里我们把R和d看作X的分布函数，这在这里是可能的，因为当E是期望类型时，它们都是定律不变量；见§2。在适当的条件下，如果S是非常数且可识别的，命题3则意味着elicI（R）=elicI（D）=2。这句话涵盖了他们的几个例子，例如截断平均值、log exp和基于速率的。除此之外，作者给出了一个混合定理，其中他们考虑了d（X）=minc∈Rmb，。。，bk∈R（kXi=1λiEi（X- C- bi）XiλiBi=0）=最小值，。。，bk∈R（kXi=1λiEi（X- bi）。再一次，如果EIC都是期望类型且可识别，则定理1给出了elicI（D）=elicI（R）≤ 在适当的假设下，假设Siare完全独立（定义11），则k+1具有命题3的匹配下限。最后，一对E的回复定理可以被视为上面用E代替E（X）的特例(-十）。统计特性的启发复杂性11因此，我们的结果为其他几个例子给出了严格的复杂性界限，包括“超分位数”或光谱风险度量、分位数半径四边形，以及Ben-Tal和Teboulle（2007）的优化确定等价性。我们的结果解释了其中一些风险/偏差度量的回归程序的存在。例如，Rockafellar等人。

使用道具举报

23楼

kedemingshi

发表于 2022-5-8 10:28:29 |只看作者 |坛友微信交流群

（2014）将超分位数回归引入光谱风险度量的fit模型。超预期是另一个例子（Rockafellar&Royset，2013）。根据定理1，我们可以将超分位数回归解释为简单地对k个不同分位数及其联合贝叶斯风险进行回归。事实上，我们的结果表明，由多个期望四边形混合产生的任何风险/偏差都将有一个类似的过程，在这个过程中，两个变量只需沿着兴趣度量进行计算。更广泛地说，这种回归程序适用于任何贝叶斯风险。最后，我们简要地考虑了一致性风险度量，一个包含光谱风险度量的类别，以及上面的其他几个例子。在其他属性中，一致性风险度量满足正同质性，即ρ（αX）=αρ（X），其中α≥ 0.一致性风险度量可以通过其众所周知的对偶表示来表征，ρ（X）=supQ∈QE[QX]，其中Q是一组称为风险包络的随机变量集（F¨ollmer&Schied，2004；Ang等人，2018）。尽管这种表示法与等式（11）相似，但定理1通常不直接适用，因为包络Q通常是有限维集，产生的上界很小。例如，α级的预期短缺通常用Q={Q:0表示≤ Q≤ 1/α}（Delbaen，2002；Ang等人，2018）。也就是说，如果Q中的潜在优化器可以由一个有限维参数来参数化，正如我们在等式（3）中看到的预期不足，以及关于该参数的有效连续性限制，则该定理将适用。3·7. 经验风险最小化回想一下，在许多统计学习环境中，人们希望学习一个模型或假设：X→ 从类H中预测R值作为特征向量x的函数∈ 十、

使用道具举报

24楼

何人来此

发表于 2022-5-8 10:28:33 |只看作者 |坛友微信交流群

例如，线性分类有X=Rd和Y=R={+1，-1} 假设类Hlin={hθ：x7→ sgn（x·θ+b）|θ∈ Rm，b∈ R} 。假设h的预测误差由给定的损失“：R×Y”来判断→ R、例如分类中的0-1损失`（R，y）=1{R 6=y}。因此，假设P是X×Y上的基本分布，我们寻求一个假设h∈ H，使预期损失EP`（H（X），Y）最小。解决这一学习问题的许多算法都属于（正则化）经验风险最小化的大范畴，其中给定一个有限的数据集D={（xi，yi）}ni=1，one choosesh*∈ 阿明∈HX（xi，yi）∈D`（h（xi），yi）+g（h），（9）式中g:h→ R是正则化子。然而，等式（9）中的优化问题可能很难解决，尤其是当R是一个有限集时，如在分类、排名和相关问题中（Arora等人，1993）。因此，通常的方法是找到替代损失L:Rk×Y→ R更易于优化，并通过链接函数f:Rk选择使经验L损失最小的假设→ R（Bartlett等人，2006年）。例如，支持向量机（SVM）、boosting和logistic回归都可以被视为优化凸代理损失R，然后是链接f=sgn:R→ {+1, -1}. 有关支持向量机的更多信息，请参见下文。这个替代过程提出了以下问题：何时优化替代损耗SL并应用一些链接f达到最佳损耗，或者换句话说，何时校准L？至少有三种有趣的方法可以让这个问题变得精确。最弱的是精确最小化L，然后应用f精确最小化Y上的所有分布。更强大的是，我们可以要求渐近校准，任何收敛到L的最小值的序列，当与f组合时，也收敛到`。

使用道具举报

25楼

nandehutu2022

发表于 2022-5-8 10:28:36 |只看作者 |坛友微信交流群

更强大的是，我们可以寻找这种趋同发生的速度。12 R.Frongillo和I.A.KashAll的这些配方与诱导复杂性有关。设ΓLandΓ分别是由L和`导出的可能的集值性质。上面最薄弱的关系，即精确最小化L和应用f精确最小化“的关系，当且仅当ΓLre定义Γ”时成立，即对于所有u∈ 存在一个r∈ R使ΓLu Γr；见定义12。例如，如果一个人寻求一个光滑的严格凸损失L:Rk×Y→ 在弱意义下，根据`，对R进行校准，那么维度k的最小可能值就是精确的启发复杂度ElicCrict（Γ`）。对于渐近校准，还有一个额外的要求，即f和`满足某种类型的连续性。直觉上，如果o Fo ΓLis不是连续的，一个人可能能够任意地最小化L，但仍然远远不能最小化`。作为R=Y=R和k=1的一个简单例子，考虑`（R，Y）=1{r6=Y}和L（u，Y）=（u- y）。Agarwal和Agarwal（2015）给出了类似分类问题的条件。一般版本对应于严格正校准函数的存在（Steinwart&Christmann，2008）。利率通常依赖于更强的统一连续性，例如Steinwart和Christmann（2008）的定理3.22。作为一个具体的例子，考虑铰链损耗L（u，y）=max{0，1- 其中Y={+1，-1} 你呢∈ R.如上所述，支持向量机使用铰链损失作为0-1损失`（R，y）=1{R 6=y}的凸代理，其中代理最小化后是链接f（u）=sgn（u）。让我们来验证这些损失的最小值之间的各种关系。

使用道具举报

26楼

可人4

发表于 2022-5-8 10:28:40 |只看作者 |坛友微信交流群

在你到达这个范围之后[-1，1]，由于u的所有其他值都是弱支配的，我们可以描述由铰链损失限制的性质ΓL，及其水平集ΓLu，如下所示：ΓL（p）=-1 0 ≤ p（+1）<1/2[-1,1]p（+1）=1/21 1/2<p（+1）≤ 1，ΓLu={p:p(-1) ≥ 1/2}u=-1{p:p（+1）≥ 1/2}u=1{（1/2，1/2）}u∈ (-1, 1). （10）经检查，我们有ΓLu Γ`rfor r=sgn（u），意味着链接函数f=sgn。此外，Steinwart&Christmann（2008，定理3.34，3.36）表明，铰链损失实现了渐进的，实际上是一致的校准。这些观察结果表明，从根本上说，导致一致性学习算法的替代项L依赖于ΓL、f和Γ，而不是直接依赖于L。然而，这种说法隐含的假设是，学习算法考虑的是一类不受限制的Hof模型。如果模型类受到限制，比如上面的hlin，我们不能保证最优映射h*: x7→ ΓL（px），其中px=Pr[Y=Y | X=X]是Y值的真实分布，将以H为单位。在这种情况下，一致性更难建立，尤其是，不同的替代选择会导致ΓL影响最终实现的“风险”。因此，提供各种损失函数的工具也很重要。在其他学习环境中，自然的问题不一定是最小化特定的损失，而是估计给定的统计数据。例如，在回归中，对于给定的x∈ RDY上通常会有一个分布∈ 我们得到了一些感兴趣的汇总统计数据，比如平均值。在这些设置中，直接根据所需的属性Γ来指定问题是很自然的，并寻求一个可引出的ΓLand link f，例如Γ=fo ΓL。

使用道具举报

27楼

可人4

发表于 2022-5-8 10:28:43 |只看作者 |坛友微信交流群

只要Γ满足适当的连续性属性，学习就可以保证类似的一致性。因此，总而言之，elicC（Γ）的上界通常为给定的利益属性Γ提供统计上一致的替代损失，其中Γ=Γ`如果给出损失\'。此外，Anuper-bound elicC（Γ）≤ k意味着中间性质Γ是Rk的函数，这意味着基本假设范围的维数最多可以取为k。请注意，k不是参数数，对于Rk，它是d+1。同样，下界elicC（Γ）≥ k表明，对于C类，任何此类替代损失和联系的存在，则假设范围的维数必须至少为k。统计特性的启发复杂性134。基本复杂性结果4·1。最初的观察我们从一个重要的观点开始：在不限制属性C的类别的情况下，定义4变得微不足道，所有属性都变得1-可引出。这个观察结果并不包含关于情况Γ（p）=（Ep[Y]）的备注2，因为我们可以在这里显示elicClin（Γ）=1。备注4。R和rna的集合论基数与N和q的集合论基数相同，因此存在一个双射：R→ RQ（Hrbacek&Jech，1999，定理2.3）。取Y=R，在Borelσ-代数上定义的任何概率测度都由其累积分布函数（CDF）F唯一确定，而累积分布函数（CDF）F又由其有理数{F（q）| q上的值唯一确定∈ Q} 。让g:P→ RQbe是将概率度量p转换为CDF并根据有理数对其进行评估的映射。那么h.=~n-1.o g是P和R之间的内射映射。因此，给定一些性质Γ：P→ Rk，我们让^Γ=h将每个分布编码为一个实数。

使用道具举报

28楼

大多数88

发表于 2022-5-8 10:28:47 |只看作者 |坛友微信交流群

我们用L（^r，y）=L导出Γ*（h）-1（^r），y）对于一些适当的损失函数L*: P×Y→ r得出整个分布（Gneiting&Raftery，2007），最后取f=Γo H-那么o^Γ = Γ o H-1.o h=Γ。我们得出结论，如果C=E（P）是所有可引出性质的集合，那么对于所有性质，Elicc（Γ）=1。在我们所有重要的下界背后，基本上都是识别复杂性的概念。定义9。属性Γ是k-可识别的，k∈ N∪ {∞}, 如果存在^Γ∈ Ik（P）和fsuchΓ=fo^Γ. Γis iden（Γ）=min{k:Γis k-可识别}的识别复杂度。根据我们的定义，elicI（Γ）≥ iden（Γ）当两者都被定义时，因为定义4中的属性^Γ必须能够识别C=I。特别是，条件1已经暗示了识别复杂度的下限，这反过来又意味着更低的启发复杂度。引理1。让我们∈ 对于某些r，Ik（P）满足条件1∈ Γ（P）。然后是艾登（Γ）≥ k、为了说明定义9，回顾方差示例，其中Γ=Var，^Γ：p 7→ （Ep[Y]，Ep[Y]）∈R、 f:（R，R）7→ R- r、这里是iden（Var）≤ 2，通过V（r，y）=（y- r、 y- r）。当然，就像^Γ∈ Clin，我们还有更有力的陈述elicClin（Var）≤ 2.通过引理1，我们也得到了适当富P的iden（^Γ）=2。正如我们现在展示的，这可以用来提供iden（Var）=2的下界。4·2. 冗余和冗余通过各种方式很容易创建冗余属性。例如，给定可引出属性Γ和属性Γ{Γ，Γ，Γ+Γ}显然包含冗余信息。当顺序不相关时，我们将使用大括号组合属性。一个具体的例子是Γ={meansquared，variance，2nd moment}，正如我们所看到的，它有elicI（Γ）≤ 2.

使用道具举报

29楼

nandehutu2022

发表于 2022-5-8 10:28:50 |只看作者 |坛友微信交流群

然而，向这样一个列表添加属性并不能降低它的整体复杂性，也不能增加它超出单个复杂性的总和；i、例如，启发复杂性是次加性的。引理2。对于所有属性Γ，Γm和C类，我们有Max1≤我≤melicC（Γi）≤ elicC（{Γ，…，Γm}）≤mXi=1elicC（Γi）。证据对于第一个不等式，让k=elicC（{Γ，…，Γm}）∈ N∪ {∞}, 我们有一个可引出的问题∈ C、 ^Γ：P→ Rk和f使得（Γ，…，Γm）=fo^Γ. 假设g是选取第i个坐标的投影，我们有Γi=（go f）o^Γ，从而建立了elic（Γi）≤ k、第二，对于任何可引发的^Γi∈ C和fi，其中Γi=fio当然，我们可以取^Γ=（^Γ，…，^Γm）和f=（f，…，fm），这样（Γ，…，Γm）=fo^Γ. 下面的定义和引理捕捉到了缺乏冗余的各个方面，它们共同确保引理2的第二个不等式是紧密的。14 R.Frongillo和I.A.Kashd定义10。属性Γ：P→ 如果iden（Γ）=k，则Rkin I（P）是平衡的。一个属性有两种不平衡的方式。首先，正如上面的例子所示，Γ可以是“多余的”，因此它是低维可识别属性的链接。如果标识属性所需的维度多于指定属性所需的维度，则也可能违反平衡。§3中的大多数属性都是这种情况，例如，方差是一维属性，但我们将显示它的iden（Var）=2。定义11。属性Γ，Γ∈ 如果iden（{Γ，Γ}）=iden（Γ）+iden（Γ），则I（P）是独立的。引理3。如果Γ，Γ∈ E（P）∩ I（P）是独立且平衡的，那么我们有elicI（{Γ，Γ}）=elicI（Γ）+elicI（Γ）。证据让我们：P→ RkandΓ：P→ Rk。就像Γ一样Γ∈ E（P）∩ 我（P），我们有伊莱西（Γ）≤ 坎德·埃利奇（Γ）≤ k、展开我们的定义，我们有elicI（{Γ，Γ}）≥ iden（{Γ，Γ}）=iden（Γ）+iden（Γ）=k+k≥ 伊莱西（Γ）+伊莱西（Γ）。

使用道具举报

30楼

kedemingshi

发表于 2022-5-8 10:28:54 |只看作者 |坛友微信交流群

对于上界，我们只需分别取损失L和LforΓ和Γ，并通过^L（r，r，y）=L（r，y）+L（r，y）导出{Γ，Γ}。为了说明这个引理，elicI（Var）=2，而Γ={E[Y]，Var}有elicI（Γ）=2，所以很明显，均值和方差都不是独立和平衡的。正如我们所说，差异是不平衡的。然而，平均矩和二阶矩都满足引理5。与冗余类似，我们可以从严格编码更多信息的角度来考虑一个属性与另一个属性的关系。定义12。Γ定义Γ是否存在函数f，使得Γ=fo Γ.等价地，如果Γ的每个水平集包含在Γ的水平集中，则Γ定义Γ。很快，一个定义了另一个的属性就不能有更低的启发复杂性。引理4。如果定义了，那么elicC（{Γ，Γ}）=elicC（Γ）≥ elicC（Γ）。证据对于不等式，如果Γ相对于C是k-可导的，则存在一个可导的^Γ∈C使得Γ=go^Γ. 但然后Γ=fo Go^Γ，所以Γ对于C也是k-可导的。对于theequality，elicC（{Γ，Γ}）≥ elicC（Γ）后面是引理2。看看我们还有elicC（{Γ，Γ}）≤elicC（Γ），注意{Γ，Γ}={fo g、 g}o^Γ. 通过这一关于环境的观察，我们最终可以得出这样的结论：iden（Var）=2，因为平均值和二阶矩对定义了方差。事实上，情况正好相反，因为映射是一个双射。从这个意义上说，我们的下界只关心Γ的水平集的几何，而不关心这些水平集是如何标记的。4·3. 上界我们现在提供了一些适用于每个属性的简单上界。显然，只要p∈ P可以由一些可引出的参数唯一地确定，那么每个属性的省略复杂性最多就是这个数字：一个可以简单地引出整个重新分配，然后链接函数简单地计算所需的属性。

使用道具举报