基于神经网络的鲁棒风险聚合 - 第4页 - 外文文献专区

31楼

发表于 2022-6-11 02:33:50

i=1、2、3、4的隐藏尺寸di，1设置为64·d，而输出尺寸d4,2始终为1。惩罚函数βγ设置为βγ（x）=γmax{0，x}。一方面，该选项在所有示例中都是稳定的。另一方面，命题3中的理论正好适用于这类惩罚函数。关于参数γ，我们通常首先用较低的选择来解决问题，如γ=50，这将导致稳定的性能。然后，我们逐渐增加γ，直到进一步增加不再导致（4）的目标值发生重大变化。关于γ设置为大时的不稳定性，见第3.3节。关于取样测量θ，基本选择是使用θprod=(R)u u ... ud。特别是对于ρ的低值，这是次优的：事实上，对于问题（22）中的ρ=0，我们知道优化器的形式总是πdiag=uK、其中K是随机核：Rd→ P（Rd）由K（x）=δx给出。由于πdiag相对于θprod是奇异的，因此仅使用θprodas采样度量，可以预期由于ρ的小值惩罚而产生的高误差。因此，使用（除其他可能性外）θhalf：=θprod+πdiag是有意义的。然而，这非常具体，大多数解决方案不会在πdiag表示质量的地方精确地表示质量。因此，我们向πdiag添加了一些噪声，例如，通过协方差矩阵ε：θ三次方：=θprod+πdiag+（πdiag* N（0，ε）），其中* 表示度量值的卷积。第4节中的四个玩具示例都使用了抽样测量θhalf，而在第5.3.2节的最终案例研究中，我们依赖θthird。神经网络参数的优化方法这一小节也可以称为“训练”。

32楼

kedemingshi

发表于 2022-6-11 02:33:53

然而，由于我们没有在训练测试类环境中使用neuralnetworks，这可能会产生误导。对于这个主题，试错法尤其有用，因为简单的目标是获得稳定的收敛。对于神经网络的参数，我们使用参数β=0.99和β=0.995的Adam优化器。对于学习率，我们从α=0.0001开始进行第一次训练，然后每50次迭代将其降低0.98，总共再进行N次迭代。我们使用大约2到2的批量大小（每个迭代中生成的样本数量），有关详细信息，请参见第3.3节。与所选问题特定：对于第4节中的简单问题，N=15000，N fine=5000，而对于第5节中的DNB案例研究，N=60000，N fine=30000。参数λ必须与神经网络的参数分开进行优化，因为λ的值显然比网络的任何单个参数都更重要。精确地说，在固定数量的Nλ迭代之后，λ由λ7更新→ λ - αλNλXi∈我iλ，其中i是之前的Nλ多次迭代，αλ是学习速率iλ是迭代i中目标函数相对于λ的样本导数。关于αλ和Nλ的选择，我们通常首先将αλ设置为0.1左右（取决于问题），然后以与α相同的方式递减，而Nλ设置为200。在我们第一次更新λ之前，我们要等到网络参数处于敏感区域，这通常需要大约1000到10000次迭代。如果优化中涉及另一个参数（如计算AVaR的示例中的τ），我们采用与λ相同的方法，但我们更新此参数的次数很少（每1000-2500次迭代一次），并且在开始时等待更长的时间来更新第一次（5000到20000次迭代之间）。3.3.

33楼

可人4

发表于 2022-6-11 02:33:56

评估解的质量为了评估得到的解，我们发现主要需要考虑三个方面：（a）神经网络结构是否足够丰富？（b）处罚的影响有多大？（c）数值优化程序是否收敛到（接近）最小值？第A.2节展示了如何将其应用于示例案例。第（a）部分似乎是最简单的，因为我们发现第3.1小节中描述的网络结构的选择对于所有问题都是有效的，因为进一步增加网络大小不会改变获得的解决方案。关于（b）部分，最有用的观察结果如下：如命题1所述，通过神经网络的数值解可用于获得近似解u？关于原始问题。如果我们计算积分RFDu？与φθ，γ（f）相比，差值为φ*θ,γ(π?), 这可以看作是惩罚的结果。如果φ*θ,γ(π?)值很小，表示处罚效果很小。第二个观察结果是φθ，γ（f）在γ中增加，并且在命题1和命题2所研究的条件下收敛到φ（f）。因此，从较低的γ值开始并增加它，直到不再发生变化为止，这是一个好的策略。当这样做时，γ值太大当然会对（c）部分有害，因此，当增加γ时，通常需要同时调整训练参数（如学习率或批量）。关于第（c）部分，我们发现大多数不稳定性可以通过增加批量来解决。这种增长自然伴随着更长的运行时间。特别是如果γ必须大量增加以允许较小的惩罚效果，则需要非常大的批量（例如，在DNB案例研究中，我们使用的批量为2）。

34楼

何人来此

发表于 2022-6-11 02:33:59

为了获得收敛的结构化标准（与仅仅直观地评估收敛相比），我们可以再次使用命题1中的对偶关系。事实上，我们可以利用数字获得的u？（作为命题1（b）中π？的第二个边界）是问题（1）的近似可行解，如果算法已经收敛。因此，作为收敛的必要标准，可以检查u？满足可行性标准。为此，可以比较u？对于|u的那些（我们主要通过视觉评估经验边缘u？）以及估算dc（(R)u，u？）。3.4. 运行时一般来说，使用神经网络的计算可以从并行化中受益匪浅，例如通过使用GPU。然而，对于我们的大多数示例来说，这并不是必需的，即使使用常规CPU（intel i5-7200U；双核，每个CPU 2.5-3.1 GHz），也可以快速执行相应的计算（即在一到五分钟之间）。然而，在DNB案例研究中，一个具有稳定学习参数的单次运行在CPU上大约需要20小时。通过使用单个GPU（Nvidia GeForce RTX 2080 Ti），这将减少到大约30分钟。值得注意的是，在较小的示例中，与CPU相比，使用GPU的速度较慢，原因是问题太小，无法充分利用GPU的并行功能。4、示例本节的目的是说明如何使用上述引入的概念来数值解决给定的问题。特别是，我们证明了神经网络能够（1）对所考虑的所有问题实现令人满意的经验性能，（2）通过命题1（b）自然确定最坏情况分布的结构，（3）处理不能重新表示为LP的问题。

35楼

能者818

发表于 2022-6-11 02:34:02

关于后一点，我们很清楚，dc（(R)u，u？）应以ρ为界，且在最佳情况下等于ρ（如果ρ太大以至于没有影响，则尚未处于边缘情况）。考虑函数f（不能写成函数的最大值）和成本函数c（不能相加分离）。此外，我们还考虑了对偶结果的一般性：我们用距离惩罚代替距离约束，并确定了二变量而非一变量边缘的分布。此外，通过考虑无界函数f，我们阐明了定理1中使用增长函数κ的必要性。为了实现所有这些点，我们考虑了三个难度越来越大的示例。关于本节中的符号，c表示成本函数c（x，y）=| | x- y | |=Xi | Xi- 易|。此符号表示DC（(R)u，u）：=infπ∈∏（(R)u，u）ZRd×RddXi=1 | xi- yi |π（dx，dy），是相对于L-度量的一阶Wasserstein距离。另一方面，我们考虑与欧几里德度量DC（(R)，u）相关的一阶Wasserstein距离：=infπ∈π（°u，u）ZRd×RddXi=1（xi- yi）！1/2π（dx，dy）. （23）请注意，成本函数c（x，y）：=| | x- y | |不可加分离。4.1. 预计最多两个comonotone标准Uniforms我们从一个与风险度量无关的玩具示例开始。考虑以下问题φ（f）：=sup（VU）~u∈π（°u，±u），直流（±u，u）≤ρE[最大值（U，V）]=supu∈π（°u，±u），直流（±u，u）≤ρZ[0,1]max（x，x）u（dx），（24），其中u=(R)u=U（[0，1]）是（单变量）标准均匀分布概率测度，u是共单调copula。

36楼

nandehutu2022

发表于 2022-6-11 02:34:06

换句话说，(R)u是一个双变量概率度量，具有完全相关的标准均匀分布边缘。在第2节的表示法中，我们选择函数f为f（x）=max（x，x），x=x×x=[0，1]×[0，1]。在解释问题（24）时，我们的目的是计算在参考依赖结构不明确的情况下，两个标准一致性的最大值的期望值，这是由共单调耦合给出的。问题（24）具有以下解析解φ（f）=1+min（ρ，0.5）。该解的推导可在附录A.3中找到，并基于推论1中的对偶结果。因此，问题（24）非常适合作为基于神经网络的解决方案方法的基准。相比之下，我们还使用linearprogramming解决了这个问题。准确地说，我们考虑以下两种方法：在文献中，关于欧几里德度量的瓦瑟斯坦距离通常与二阶相关，在这种情况下，基本成本函数是可加分离的。0 0.1 0.2 0.3 0.4 0.5 0.60.40.450.50.550.60.650.70.750.80 0.1 0.2 0.3 0.4 0.5 0.60.40.450.50.550.60.650.70.750.8图1：在左面板中，将问题（24）的解析解φ（f）绘制为ρ的函数，并与通过方法1获得的相应数值解进行比较。a）和方法2。a），如第4.1节所述。右侧面板显示了与改进方法1相同的内容。b）和2。b）。1、我们将参考copula|||||Μ离散化（从而使边际分布|u和|u），并通过线性规划解决由此产生的对偶问题（见推论3）。有两种不同的方法可以离散化“u”：a）我们使用蒙特卡罗抽样。在推论3的表示法中，这意味着我们对点x，xnin[0，1]来自标准均匀分布。然后，我们为j=1设置xj=xj。

37楼

kedemingshi

发表于 2022-6-11 02:34:10

，n.b）我们设置点xj=xj=2j-12J=1，n、由于共单调copula只存在于单位平方的主对角线上，因此|u的这种确定性离散化在某种意义上最小化了离散化误差。仅由于参考分布的特殊结构，用于确定该离散化的简单几何参数才适用。让我们强调方法1。a）可应用于任何参考分布'u。另一方面，方法1。b）只能在这个特定示例中使用，因为“u”是由共单调copula给出的。2、我们使用上述第3节中描述的神经网络方法来解决这个问题。如前所述，需要针对特定问题选择一些超参数。我们特别设置：N=15000，N fine=5000，γ=1280，批量=2，αλ=0.1。关于抽样测度θ，在本例中，我们比较了a）基本选择θ=θprod和b）改进选择θ=θhalf。为了更好地理解这些参数选择和我们的神经网络方法，我们在附录a.2中对此示例进行了详细的收敛性分析。图1比较了上述两种方法，以解决ρ不同值的问题（24）。在图1的左侧面板中，我们观察到方法1。a）即使n=250被选择得尽可能大，以使生成的LP可由商用计算机求解，也会产生不满意的结果。这个问题是由于离散化的质量差而产生的。我们等待2500次迭代，直到第一次更新λ，其中λ被初始化为λ=0.750 0.1 0.2 0.3 0.4 0.5 0.60.40.450.50.550.60.650.70.750.8图2：问题（24）的解析解φ（f），它使用了关于L度量的一阶Wassersteindinance，与问题（25）的数值解|Μ（f）进行了比较，问题（25）使用了关于欧几里德度量的一阶Wasserstein距离，即。

38楼

可人4

发表于 2022-6-11 02:34:13

L-度量。由蒙特卡罗模拟得出。如果选择方法1中的离散化。b），我们恢复了问题（24）的解析解，如图1的右面板所示。此外，图1表明，方法2，即本文提出的方法，产生了非常好和稳定的结果。然而，左面板显示，对于小ρ方法2。a）不会重新发现真正的解决方案。其原因是，当从所选的采样度量θprod中提取ndom样本时，我们不太可能从相关区域（即单位平方的主对角线）进行采样。如第3.1节方法2所述。b）正是为了克服这一弱点而设计的，图1的右侧面板说明了这一点。我们通过考虑Wasserstein距离与欧几里德度量dc的关系，而不是Wasserstein距离与欧几里德度量dc的关系来结束这个例子，如等式（23）所示。因此，我们将问题（24）与∧φ（f）进行比较：=supu∈π（°u，±u），直流（±u，u）≤ρZ[0,1]最大值（x，x）u（dx）。（25）由于成本函数cis不可加分离，因此无法根据推论3（即线性规划）来近似φ（f）以外的φ（f）。然而，我们可以使用神经网络近似|φ（f），这证明了我们方法的灵活性。图2比较了不同ρ的φ（f）和φ（f）。注意，作为c（x，y）≥ c（x，y）表示所有x，y，dc（(R)u，u）≥ dc（\'u，u）1/2对于所有的\'u，u∈ P（X）。因此，φ（f）≤对于固定ρ，为φ（f）。图2与此观察结果一致。4.2. 两个独立标准Uniforms的平均风险值与前一个示例相比，我们略微增加了复杂性，因为我们现在转向稳健的风险聚合。

39楼

可人4

发表于 2022-6-11 02:34:16

我们的目标是计算AVaRα（U+V），其中U和V是独立的标准统一体，在关于独立性假设的模糊性下。我们对第2点中给出的超参数使用相同的选择。但对于较小的ρ，增加Nconsiderly以保证λ的收敛性，并使用θhalf作为采样度量。请注意，平均风险值由Avarα（Y）定义：=minτ∈Rτ +1 - αE[最大值（Y- τ, 0)],见Rockafellar和Uryasev（2000）。使用一阶Wasserstein距离围绕参考依赖结构构建模糊集，我们得到以下问题Φ：=sup（VU）~u∈π（°u，±u），直流（±u，u）≤ρAVaRα（U+V）（26）=supu∈π（°u，±u），直流（±u，u）≤ρinfτ∈R（τ+1- αZ[0,1]max（x+x- τ、 0）u（dx））（27）=infτ∈Rφ（fτ），（28），其中u=u=U（[0，1]）是（单变量）标准均匀分布概率测度，u是独立copula。换句话说，(R)u=U（[0，1]）是一个具有独立、标准均匀分布边缘的双变量概率度量。此外，fτ（x）=τ+1-αmax（x+x- τ、 0）和φ（·）的定义如等式（1）所示。注意，在问题的上述公式中，我们可以从（27）到（28），因为问题在τ中是凸的，在u中是凹的，并且Wasserstein球是弱紧的。因此，我们可以应用Sion的极大极小定理来交换（27）中的上确界和内确界。在附录A.4中，我们推导出ΦIn（26）的分析上限和下限。这些边界对于目前的目的来说足够紧，这是为了评估所讨论的两种数值方法的性能。图3支持后一种说法：Φ的解析边界在作为ρ的函数时相当紧。将边界与前一示例中讨论的两种相同的数值方法进行比较。

40楼

何人来此

发表于 2022-6-11 02:34:19

关于基于蒙特卡罗模拟和线性规划的解决方案，我们现在平均每个固定ρ超过100个模拟。因此，图3中的结果没有我们在图1左面板中看到的结果那么明显。然而，图3显示，通过MC和LP获得的解不在分析范围内，而基于我们的神经网络方法的解除外。可以说，这是由于使用蒙特卡罗离散参考分布u时缺乏对称性。关于运行时，两种数值方法都需要大约相同的时间来计算图3所需的值。我们现在想说明神经网络方法的另一个优点，即我们可以从数值优化器u？问题（26）。通过这样做，我们获得了关于最坏情况分布结构的信息。样本是从命题1（b）给出的密度中通过接受-拒绝抽样获得的，在这里我们用数值优化器替换真正的优化器。图4绘制了这种最坏情况分布的样本u？对于ρ的不同值。为了理解图4所示结果的有趣性质，我们必须更详细地描述问题（26）。应该清楚的是，在所有可能的U和V耦合中，均匀U和V的共单调耦合使AVaRα（U+V）最大化。然而，可以发现许多不同的最大化耦合。值得注意的是，ρ=0.2所示的优化器对应于具有最低相对ρ0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18Φ21.451.51.551.61.651.71.75 MCNN解的解析边界LP解图3：将问题（26）的解析上界和下界与两个不同的数值解进行比较。

[量化金融] 基于神经网络的鲁棒风险聚合 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群