通过计算最优运输和相关套期保值问题 - 第2页 - 外文文献专区

11楼

发表于 2022-6-8 18:01:06

然后，对于每个f∈ Cb（X）onehasφmθ，γ（f）→ φ（f）表示最小值{m，γ}→ ∞.例如，定理2.2和命题2.4中所要求的ε-优化器的存在性在[12]中建立在具有绝对连续边际的RDM中的多边际最优运输问题的背景下。通常，此类ε优化器的存在主要取决于θ的选择，请参见示例3.6中的简单说明。3用多层前馈网络建模有限维子空间本节解释了神经网络构建的近似子空间的具体选择。一般来说，神经网络的一种可行替代方法是通过基函数（如多项式）来构建这些空间，例如，在鞅最优运输的背景下，在[33]中所追求的。与基方法不同，基方法将函数表示为固定基函数的加权和，神经网络依赖于简单函数层的组合。这是一种用相对较少的参数来近似一大类函数的有效方法。在研究结果之前，我们给出了神经网络所需的符号。3.1符号我们考虑的神经网络类型是完全连接的前馈神经网络。formRd3 x 7的Thoseare映射→ Al公司o φ o Al公司-1 |{z}（l-1). 层o... o φ o A{z}1。层（x），其中Aiare a ffine transformations和Д：R→ R是一个非线性激活函数，适用于delementwise，即Д（（x，…，xn））=（Д（x）。。。，用于（x，…，xn）∈ 注册护士。关于尺寸，有一个输入尺寸d∈ N和一个隐藏维度m∈ N、这意味着从Rdto Rm、A、…、。。。，Al公司-1map从Rm到Rm，Almaps从Rm到R。对于矩阵mj和向量bj，每个a ffine转换Aj可以简单地表示为Aj（x）=Mjx+bj。

12楼

nandehutu2022

发表于 2022-6-8 18:01:09

所有这些矩阵和向量一起是网络的参数，对于某些数据，可以将其视为RDD的一个元素∈ N、我们需要包含所有前馈神经网络的集合，这些神经网络具有固定的结构（即固定的层数和尺寸），但参数值不明确。我们用Ξ表示 Rd固定网络结构的可能参数集（形式上，D取决于网络结构），通过Nl、D、m（ξ）=Alo φ o Al公司-1.o ... o φ o 具有l层、输入维d、隐维m和参数ξ的特殊神经网络∈ Ξ. 我们用ξ表示所有此类网络的集合Nl，d，m（ξ）∈ 由Nl、d、m（Ξ）执行。在本节的其余部分，我们将处理固定数量的层和输入维度，但允许增加隐藏维度。对于不同的隐藏尺寸m，用Ξm表示相应的参数集。我们定义，d：=[m∈NNl，d，m（Ξm）。我们希望这一定义独立于参数集的精确选择，这就是为什么我们假设集Nl、d、m（Ξm）以m为单位增长。一种明确的方法是：假设3.1。对于任何l，d∈ N和一系列参数集Ξ，Ξ。。。，其中，Ξ被错误地视为某些Dm的RDM的子集∈ N、我们总是假设[-m、 m]Dm ΞmandNl，d，m（Ξm）所有m的Nl、d、m+1（Ξm+1）∈ N、我们不只是设置Ξm的唯一原因≡ 在命题3.7中，我们假设了紧参数集。此外，我们假设假设3.2。激活函数Д是连续的、不衰减的，并且满足limitproperties limx→-∞Д（x）=0和limx→+∞ν（x）=1.3.2通过神经网络建模HM在以下情况下，我们假设H的形式为H=nJXj=1ejhjo πj+a:hj∈ Cb（Rdj），a∈ Ro，其中ej∈ Cb（X）和πj:X→ 所有j=1，…，的Rdjare连续函数，J

13楼

何人来此

发表于 2022-6-8 18:01:12

这种形式的H包括许多不同的问题，例如示例2.1中考虑的问题（例如，在（a）中，H={Pdj=1hjo prk：hj∈ Cb（R）}其中prj（x）：=xjdenotes j-thmarginal组件上的投影）。我们近似H byH∞=nJXj=1ejhjo πj+a:hj∈ Nlj、dj、a∈ Ro，及其子空间Hm=nJXj=1ejhjo πj+a:hj∈ Nlj，dj，m（Ξj，m），a∈ Ro。在这种情况下，问题φmθ，γ（f）由φmθ，γ（f）=infh给出∈HmnZh du+Zβγ（f- h） dθo=infa∈Rinfhj公司∈Nlj，dj，m（Ξj，m）nZJXj=1ejhjo πjdu+a+Zβγf-JXj=1ejhjo πj- 一dθo=infa∈Rinfξj∈Ξj，mnZJXj=1ejNlj，dj，m（ξj）o πjdu+a+Zβγf-JXj=1ejNlj，dj，m（ξj）o πj- 一全部f的dθ∈ Cb（X）。最终公式表明，问题φmθ，γ（f）现在简化为在神经网络中找到最佳参数的有限维问题。此外，总体目标平滑地依赖于参数，并且参数是无约束的。简而言之，问题φmθ，γ（f）属于机器学习问题的框架，可以通过基于标准随机梯度下降的方法进行数值求解。在现有假设3.1和3.2下，以下引理确定了命题2.3所需的条件（D）在神经网络设置中满足时的情况。引理3.3。（a） H类∞满足条件（D）的第一部分。（b）如果X=Rd=Rd×。。。×RdJandπj=prj，对于j=1，…，ej=1。。。，J≤ J、式中，prjis是从Rdj到第J个边际分量Rdj的投影，然后H∞满足条件（D）的第二部分。此外，只要X是紧的，条件（D）的第二部分就可以满足。值得注意的是，第（b）部分可以被视为一个大型但仍然是示例性的情况。直观地说，只要空间H∞他足够富有了。备注3.4。在后面的数字中，我们通常使用ReLU激活函数，即Д（x）=max{0，x}。

14楼

何人来此

发表于 2022-6-8 18:01:15

虽然这不满足假设3.2的后一个极限性质，但这是很容易接受的：基本上，在整个理论中，这些假设仅用于保证具有某些性质的神经网络的存在。假设3.2，我们只需要两层（l=1）即可获得必要的结果。然而，在数字中，我们使用了更多的层。如果给定更多层，也可以将多个层捆绑起来，并将其视为一个层，具有不同的激活功能。例如：Alo φ o Al公司-1.o ... o A.o Д|{z}ДoAWheneverД是形式（x，…，xm）7的映射→ （Д（x）。。。，ν（xm）），具有激活功能的（l+1）层网络可以表示具有激活功能的两层网络可以表示的任何功能。对于Д（x）=max{0，x}，我们可以很容易地看到，Д（x）=min{1，max{0，x}}是可行的，这满足了假设3.2.3.3收敛。在本节中，我们研究了神经网络近似下φmθ，γ（f）收敛到φ（f）的意义。首先，我们研究了m和γ一致收敛的情况，即收敛φmθ，γ（f）的条件→ φ（f）表示最小值{m，γ}→ ∞. 这是下文备注3.5的主题，该备注是第2节和第3.2节中确定的结果总结。导致一致收敛的两个近似步骤是φθ，γ（f）→ γ的φ（f）→ ∞ φm（f）→ φ（f）表示m→ ∞.另一方面，有时收敛φθ，γ（f）→ γ的φ（f）→ ∞ 即使实际上获得了很好的近似值，也不能令人满意。示例3.6中给出了一种这种情况。即使一致收敛不成立，人们仍然可以将问题φmθ、γ（f）和φ（f）联系起来。这是通过近似步骤φm（f）完成的→ φ（f）表示m→ ∞ φmθ，γ（f）→ γ的φm（f）→ ∞,其中，后者是提案3.7的主题。

15楼

mingdashike22

发表于 2022-6-8 18:01:18

这里，代替φθ，γ（f）所需的强假设→ φ（f），收敛φmθ，γ（f）→ φm（f）可以通过假设神经网络的所有参数集都是紧的来表示。备注3.5。在引理3.3的假设下，命题2.3暗示φm（f）→ φ（f）形式→ ∞. 此外，根据定理2.2，收敛φθ，γ（f）的要求，对于每个ε>0，都存在ε-优化器→ γ的φ（f）→ ∞ 持有。在两种假设下，命题2.4得出φmθ，γ（f）→ φ（f）表示最小值{m，γ}→ ∞. 收敛φmθ，γ（f）→ m的φθ，γ（f）→ ∞ 是一个微不足道的后果。示例3.6。设X=[0，1]，u=u=δ，f（X，X）=-|x个- x |。设Q=π（u，u）为X中所有度量值的集合，其中包含第一个边缘u和第二个边缘u，因此φ（f）=supu∈∏（u，u）Zfdu显然，φ（f）=f（0，0）=0。请注意，Q={u u}使u=u u= δ(0,0).考虑两种可能的参考度量，θ（1）=U（[0，1]）是[0，1]上的均匀分布，θ（2）=u u= δ(0,0). 对于θ（2），很明显，定理2.2中所要求的ε优化器的存在性已经给出，因为θ（2）本身就是φ（f）的优化器。因此φθ（2），γ（f）→ γ的φ（f）→ ∞ 持有。另一方面，不存在ν∈ 带ν的∏（u，u） θ（1），因此φθ（1），γ（f）=-∞. 然而，通过首先用φm（f）近似φ（f），函数变得更平滑：粗略峰值，边缘约束稍微放松。这在研究双公式φθ（1），γ（f）=infh，h时变得很明显∈Cb（[0,1]）nh（0）+h（0）+Zβγ（f- h类- h） dθ（1）oφmθ（1），γ（f）=infh，h∈Nl，1，m（Ξm）nh（0）+h（0）+Zβγ（f- h类- h） dθ（1）虽然很容易在Cb（[0，1]）中找到函数序列，使0处的值变为负值，但惩罚项保持有界，但如果激活函数是连续的，参数集是紧凑的，那么对于Nl，1，m（Ξm）中的函数，这是不可能的。

16楼

大多数88

发表于 2022-6-8 18:01:21

因此有希望建立收敛φmθ（1），γ（f）→ γ的φm（f）→ ∞, 这确实是以下结果的结果。提案3.7。修复m∈ N、假设所有参数集Ξj，mfor j=1。。。，出现在Hmare紧致中的神经网络的J，θ是严格正的（即θ给everynon空开集带来正质量），它保持φmθ，γ（f）→ γ的φm（f）→ ∞.4数值示例本节旨在展示如何使用神经网络简单有效地实现前几节理论框架中经常研究的各种问题。这些例子侧重于玩具问题，这些问题允许对数值结果进行客观评估，并让读者了解所提出方法的优缺点。我们选择了使用Tensor Flow和Adam优化器的avery basic实现。至于网络架构：在所有示例中，H如第3节所述，Nlk，malways近似于Cb（Rd）。为了接近Cb（Rd），我们使用了一个五层（上一章中l=4）ReLU网络和hiddendimension 64·d。我们没有执行超参数搜索以获得此架构，但我们将自己定位在具有类似设置的论文中（例如，在[19，30，46]）。值得注意的是，增加复杂性（层数或隐藏维度）不会进一步显著改变测试案例中的数值结果，因此我们认为所选结构足以解决所考虑的问题。简单地说，实现工作如下：我们对一定数量的迭代执行常规随机梯度型优化（外包给Adam优化器），以找到网络的近似最优参数。

17楼

可人4

发表于 2022-6-8 18:01:24

在该过程中的每次迭代中，目标函数中的期望值都被相应分布中固定数量（称为批次大小）随机点的平均值所取代。为了获得φmθ，γ（f）的数值近似值φmθ，γ（f），我们最终在大约5%的迭代中平均样本目标值。这被称为双值。或者，可以使用公式（2.6）从近似优化器ν获取样本点*原始问题和数值求值器f dν*, 它被称为原始值（关于如何使用这种近似优化器ν的更多详细信息*见第4.5节）。如果未另行说明，则所有报告值均为双值。我们使用的数值程序可能会通过调整参数或使用更复杂的网络架构来改进。例如，在【13】中的相关设置中应用了批量标准化，这似乎显著加快了优化速度。4.1最优运输和FREéchet Hoe effeding bounds在第一个问题中，我们研究了不同惩罚函数、惩罚因子、批次大小和Adam优化器迭代次数的影响。设X=[0，1]d，θ=U[0，1]d（其中U（·）表示均匀分布）和Q={ν∈ P（X）：νi=U（[0，1]）}，其中νiis是ν的第i个边缘。对于某些固定z∈ [0，1]d，定义函数f:[0，1]d→ R+byf（x）=1，如果xi≤ Ziffor all i公司∈ {1，2，…，d}，0，else。值φ（f）=supν∈QRf dν对应于d维copula在点z处的最大值。通过Fréchet-hoeff定界，我们得到了该问题的解析解，即φ（f）=mini∈{1，…，d}子。在图2中，我们观察到^φmθ，γ（f）如何依赖于Adam优化器的迭代次数和批量大小。

18楼

能者818

发表于 2022-6-8 18:01:27

我们观察到，虽然批量越大，收敛越稳定，但收敛速度似乎与批量大小关系不大。这表明，增加批量大小可能会导致快速和最终稳定的性能。由于Lpenalization的出现越来越多，所有使用的代码都可以在https://github.com/stephaneckstein/transport-and-related.The这里的函数f不是连续的。由于最优运输问题从下到下是连续的（参见[37]），因此表示法（2.2）适用于所有有界可测函数f。有关如何优化优化过程的相关概念，请参见[47]及其参考文献。然而，在本文中，我们决定坚持使用Adam优化器的标准参数和固定的批量大小。这样做是为了在评估数值结果时避免另一层复杂性。图2:Fréchet-Hoeff界限：d=2，z=0.5，z=0.75。Lpenaltyfunctionβγ（x）=γmax{0，x}与指数惩罚函数βγ（x）=exp（γx）的比较-1)γ. 绘制的值是过去1000次迭代的运行平均值。红色虚线是真值φ（f）。蓝色虚线是φθ，γ（f）的下界，由定理2.2中的方程式（2.5）获得，分别用于γ的选择。稳定，我们将主要对其余的应用程序使用这种惩罚。此外，图中还表明，数值解似乎近似获得了φθ、γ（f）的下界，如定理2.2中的方程式（2.5）所示。一、 e.一个约有φ（f）≈ φmθ，γ（f）+γRβ*（d^udθ）dθ，其中^u是φ（f）的优化器。4.2多边际最优运输本例的目的是将本文的方法与现有方法进行比较，以解决一个具有挑战性的问题。设X=（RD）M，其中M表示边缘数，D表示每个边缘的维数。

19楼

nandehutu2022

发表于 2022-6-8 18:01:30

设uifor i=1。。。，M be K-具有随机选择参数的正态分布的混合物，定义Q=∏（u，…，uM）。对于p，q≥ 1 letf（x）：=-DXj=1MXi=1(-1） ixi，jqp/q，其中x=（xi，j）∈ X，i=1。。。，M、 j=1。。。，D、请注意，对于两个边距，一个有-φ（f）=Wpp，q（u，u），其中Wp，qis是Wasserstein-p距离与Rd上的Lqnorm。在表4.2中，我们比较了不同算法方法产生的该问题的最佳值。我们比较了基于边缘离散化的线性规划方法、本文提出的神经网络方法和[28，算法3]中描述的再生核希尔伯特空间（RKHS）方法。对于线性规划方法，我们使用边界附近的最大数量为10的变量，因此选择Gurobi[32]wasHere，^u作为优化器，它在立方体[0，z]和[z，1]上是一致的。LP NN RKHS RefMC量化对偶原始拉普拉斯Com。（M，D，K）p=q=2（2，1，1）0.403（0.084）0.408（0.026）0.413 0.4010.364（0.006）0.405（2，1，6）3.337（0.320）3.263（0.115）3.279 3.2582.444（0.018）3.269（5，2，6）8.978（8.233）3.073（0.231）3.123 3.041DNCp=1，q=2（2，1，6）1.536（0.071）1.537（0.025）1.537 1.5311.471（0.009）1.533（5，2，6）2.845（1.314）1.741（0.064）1.753 1.740DNC（10，3，6）10.235（3.576）6.744（0.074）6.759 6.743DNCf（x）=f（x）·sin（PMi=1xi，1）（5，2，6）16.814（0.893）17.380（0.043）18.001 17.539DNC（10，3，6）24.618（2.332）23.615（0.107）34.235 32.521DC表1：多边际最优运输：数值-φ（f）来自不同的数值格式。括号中的数字是100次运行的经验标准偏差。LP表示线性规划，基于随机抽样边缘（MC）或使用【42，算法4.5】中的量化方法来近似边缘（量化）。神经网络（NN）的实现基于γ=M·D·500的线性化。

20楼

可人4

发表于 2022-6-8 18:01:33

对于[28，算法3]中描述的再生核希尔伯特空间解（RKHS），我们使用拉普拉斯核和与NN方法相同的惩罚。对于最后两行，我们报告了-φ（￠f）。DNC条目未聚合。最后一列是由两个边缘的共单调耦合给出的分析参考值。仍然能够在我们的计算机上求解得到的线性程序。关于RKHS算法，我们必须提到，它是唯一一种没有建立在Tensor Flow或Gurobi等已建立包上的方法。因此，对于这种方法，在运行时间和超参数调整方面的效率可能远远不是最佳的。值得注意的是，从【28】中使用的指数惩罚转换为L-惩罚已经是一个轻微的改进。有关每个算法和问题设置的精确说明，请参阅代码onhttps://github.com/stephaneckstein/OT_Comparison.Evaluating结果表明，基于神经网络的方法和带量化的线性规划方法似乎效果最好。令人惊讶的是，即使对于10个边线的情况（其中线性规划只能使用4个点来近似每个边线！），量化方法获得了与神经网络方法相似的值-φ（f）。我们认为原因是函数f是非常光滑的，量化方法可以利用它。在最后两个测试用例中，Hencewe将f略微更改为▄f，这使得函数不太规则。只有在这些情况下，神经网络解决方案和量化方法才有很大的不同。在最后一种情况下，量化方法仍然必须仅用4个点来近似每个边际分布，而神经网络方法可以使用数百万个点。

[量化金融] 通过计算最优运输和相关套期保值问题 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群