DGM：一种求解偏微分方程的深度学习算法 - 第3页 - 外文文献专区

21楼

发表于 2022-6-1 06:44:09

（例如，一个基于60000张图像的数据估计的模型。）然而，目前尚不清楚这是否有助于本文的应用，因为数据集的大小没有严格的上限（即，人们总是可以模拟更多的时间/空间点）。我们训练神经网络的计算方法涉及几个部分。使用第3节中的方法近似二阶导数。使用异步随机梯度下降法将训练分布在6个GPU节点上（我们将在下面提供更多详细信息）。使用众所周知的ADAM算法（见[27]）和衰减学习率计划更新参数（下文提供了关于学习率的更多详细信息）。通过在一系列训练迭代中计算神经网络解的运行平均值（基本上是构建模型集成的一种计算成本较低的方法），可以提高精度。我们还发现，模型组合（即使是5个小尺寸）也可以略微提高精确度。为了加快训练速度，神经网络的训练分布在多个GPU节点上。我们使用异步随机梯度下降法，这是一种广泛用于机器学习模型并行化训练的方法。在每个节点上，生成i.i.d.空间和时间样本。每个节点计算目标函数相对于其相应批次模拟数据上的参数的梯度。然后使用这些渐变来更新模型，该模型存储在一个名为“parameterserver”的中心节点上。图1显示了计算设置。更新以异步方式进行；也就是说，节点i在完成其工作后立即更新模型，而不等待节点j完成其工作。这里的“工作”是计算一批模拟数据的梯度。

22楼

nandehutu2022

发表于 2022-6-1 06:44:12

在节点计算新一批模拟数据的梯度之前，它会从参数服务器接收更新的模型。有关异步随机梯度下降的更多详细信息，请参见[13]。图1：GPU节点集群上的异步随机梯度下降。在训练期间，我们会随着迭代次数的增加而减少学习。我们使用学习速率表，其中学习速率是迭代次数的分段常数函数。这是一个典型的选择。我们发现以下学习率表有效：αn=-4n≤ 5, 0005 × 10-45000<n≤ 10, 000-5<10000<n≤ 20, 0005 × 10-620000<n≤ 30, 000-630000<n≤ 40, 0005 × 10-740000<n≤ 45, 000-745000<我们使用大约100000次迭代。“迭代”涉及每个GPU节点上大小为1000的批次。因此，每个迭代都有5000个模拟的时间/空间点。我们总共使用大约5亿个模拟的时间/空间点来训练神经网络。我们使用TensorFlow和PyTorch实现了该算法，这是用于深度学习的软件库。TensorFlow具有反向模式自动微分功能，允许计算各种函数的导数。例如，TensorFlow可用于计算神经网络（4.2）相对于x或θ的梯度。TensorFlow还允许在图形处理单元（GPU）上训练模型。具有数千个内核的GPU可用于高度并行化深度学习模型的训练。此外，我们将计算分布在多个GPU节点上，如上所述。

23楼

kedemingshi

发表于 2022-6-1 06:44:15

本文的计算是在拥有大量GPU节点的Blue Waters超级计算机上进行的。4.3具有半解析解的高维自由边界偏微分方程我们采用深度学习算法来求解偏微分方程（4.1）。我们的深度学习算法的精度在多达200个维度上进行了评估。结果见下表1。维数错误3 0.05%20 0.03%100 0.11%200 0.22%表1：深度学习算法解与Black-Scholesmodel的半解析解进行了比较。参数u（x）=（r- c） x和σ（x）=σx。所有股票都具有相同的相关性ρi，j=。75，波动率σ=。25，初始股价X=1，股息率c=0.02，利率r=0。期权到期日为T=2，履约价格为K=1。Payoff函数为g（x）=max（Qdi=1xi）1/d-K、 0个. 报告了at货币美式看涨期权的价格u（0，X）的错误。误差为| f（0，X；θ）-u（0，X）| | u（0，X）|×100%。表1中使用的半解析解如下所示。设u（x）=（r-c） x，σ（x）=σx，ρi，j=ρ，对于i 6=j（即Black-Scholes模型）。如果（4.1）中的payoff函数为g（x）=max（Qdi=1xi）1/d- K、 0个,（4.1）有一个半解析解：u（t，x）=v（t，（dYi=1xi）1/d- K），（4.4），其中v（t，x）满足一维自由边界PDE0=vt（t，x）+uxvx（t，x）+σxvx（t，x）- rv（t，x），（t，x）：v（t，x）>^g（x）.v（t，x）≥ ^g（x），（t，x）。^v（t，x）∈ C（R+×Rd），（t，x）：v（t，x）=^g（x）.v（T，x）=^g（x）， x、（4.5）式中，^σ=dσ+d（d-1） ρσd，^u=（r- c）-^σ+σ，且^g（x）=最大值（x，0）。一维偏微分方程（4.5）可以使用有限差分方法求解。

24楼

可人4

发表于 2022-6-1 06:44:18

如果f（t，x；θ）是深度学习算法对（t，x）处的DE解的估计，则点（t，x）处的相对误差为| f（t，x；θ）-u（t，x）| u（t，x）|×100%，点（t，x）处的绝对误差为| f（t，x；θ）- u（t，x）|。点（t，x）处的相对误差和绝对误差可使用半解析解（4.4）进行评估。虽然（t，x）=（0，x）处的解是美式期权最感兴趣的，但大多数其他PDE应用程序对整个解u（t，x）感兴趣。深度学习算法提供了跨越所有时间和空间的近似解（t，x）∈ [0，T]×Ohm. 作为一个例子，我们在图2中给出了20维美式期权PDE在时间和空间上的绝对误差和百分比误差等高线图。等高线图按以下方式生成：1。在[0，t]上均匀采样时间点t\'，并从Xt，…，的联合分布中采样空间点x`=（x`，…，x`），Xtin方程（4.1）。这就产生了采样点的“包络”，因为XT作为一个从X=1.2的不同过程展开。为`=1，…，计算每个采样点（t`，x`）处的误差E `，五十、 3。在二维子空间上聚合误差t’，（Yi=1x’i）1/20，E`对于`=1，五十、 4。根据数据生成等高线图t’，（Qi=1x’i）1/20，E`L`=1。x轴为t，y轴为几何平均值（Qi=1xi）1/20，对应于最终条件g（x）。图2报告了绝对误差和百分比误差。误差百分比| f（t，x；θ）-对于| u（t，x）| u（t，x）|×100%报告| u（t，x）|>0.05的点。

25楼

kedemingshi

发表于 2022-6-1 06:44:21

个别区域绝对误差较大；然而，解决方案u（t，x）在这些区域也会增大，因此百分比误差仍然很小。4.4没有半解析解的高维自由边界偏微分方程我们现在考虑一个没有半解析解的美式期权偏微分方程的情况。美国期权偏微分方程具有一个特殊的性质，即可以在近似解上计算误差界。因此，即使在有nosemi解析解的情况下，我们也可以评估深度学习算法的准确性。我们之前只考虑了一种对称情况，其中所有股票的ρi，j=0.75，σ=0.25。本节解决了一个更具挑战性的异质情况，其中ρi，jandσivari在所有维度i=1，2，d、系数适用于2000年至2017年IBM、亚马逊、蒂芙尼、安进、美国银行、通用磨坊、思科、可口可乐、康卡斯特、迪尔、通用电气、家得宝、强生、摩根士丹利、微软、诺德斯特龙、P fizer、高通、星巴克和泰森食品等股票的实际数据。这就产生了一个PDE，其中每个D+D二阶导数项的系数变化很大。相关系数ρi，jrange from-对于i 6=j，0.53至0.80，σi从0.09至0.69。设f（t，x；θ）为神经网络近似值。【45】得出PDE溶液u（t，x）位于区间：u（t，x）∈u（t，x），u（t，x）,u（t，x）=Eg（Xτ）| Xt=X，τ>t,u（t，x）=Esups公司∈[t，t]e-r（s）-t） g（Xs）- 太太. （4.6）其中τ=inf{t∈ [0，T]：f（T，Xt；θ）<g（Xt）}和Msi是由近似图2：Top：绝对误差构造的鞅。底部：误差百分比。

26楼

何人来此

发表于 2022-6-1 06:44:24

作为参考，时间0的价格为0.1003，时间T的解为max（x的几何平均值- 1, 0).解f（t，x；θ）Ms=f（s，Xs；θ）- f（t，Xt；θ）-Zst公司ft（s，Xs；θ）+u（Xs）fx（s，Xs；θ）+dXi，j=1σ（Xs，i）σ（Xs，j）fxixj（s，Xs；θ）- rf（s，Xs；θ）ds。（4.7）边界（4.6）仅取决于已知的近似值f（t，x；θ），并且可以通过蒙特卡罗模拟进行评估。MSM的积分也必须离散化。美式期权价格的最佳估计是区间[u（0，X），u（0，X）]的中点，该区间的误差界为u（0，X）-u（0，X）2u（0，X）×100%。数值结果见表2。执行价格神经网络解下限上限误差界0.90 0.14833 0.14838 0.14905 0.23%0.95 0.12286 0.12270 0.12351 0.33%1.00 0.10136 0.10119 0.10193 0.37%1.05 0.08334 0.08315 0.08389 0.44%1.10 0.06841 0.06809 0.06893 0.62%表2：在没有半解析解的情况下评估深度学习算法的精度。参数u（x）=（r- c） x和σ（x）=σx。根据数据估算相关性ρi、Jan和波动率σ，以生成异质性差异矩阵。所有股票的初始股价为X=1，股息率c=0.02，利率r=0。期权到期日为T=2。Payoff函数为g（x）=maxdPdi=1xi- K、 0个. 报告了美式看涨期权价格u（0，X）的神经网络解及其误差界。美式期权价格的最佳估计是区间[u（0，X），u（0，X）]的中点，该区间的误差界为u（0，X）-u（0，X）2u（0，X）×100%。为了计算上限，积分（4.7）用时间步长离散 = 5 × 10-我们在图3中给出了履约价格K=1的20维美式期权PDE在时间和空间上的绝对误差界和百分比误差界等高线图。

27楼

mingdashike22

发表于 2022-6-1 06:44:27

等高线图的绘制方法如下：1。在[0，t]上均匀采样时间点t\'，并从Xt，…，的联合分布中采样空间点x`=（x`，…，x`），Xtin方程（4.1）。2、`=1，…，计算每个采样点（t`，x`）的误差E`，五十、 3。在二维子空间上聚合误差t`，Xi=1x`i，E`对于`=1，五十、 4。根据数据生成等高线图t`，Pi=1x`i，E`L`=1。x轴为t，y轴为几何平均值pi=1x\'i，对应于最终条件g（x）。图3报告了绝对误差和百分比误差。误差百分比| f（t，x；θ）-u（t，x）| u（t，x）|×100%报告用于| u（t，x）|>0.05的点。应该强调的是，这些是误差界限；因此，实际误差可能更低。等高线图3需要进行大量计算。对于计算误差范围的每个点，需要对（4.6）进行新的模拟。总的来说，需要大量的模拟，我们在Blue Waters超级计算机上分布了数百个GPU。5高维Hamilton-Jacobi-Bellman PDEWe还测试了对应于随机热方程最优控制的高维Hamilton-Jacobi-Bellman（HJB）方程的深度学习算法。具体而言，我们证明了深度学习算法能够准确地解决高维PDE（5.5）。PDE（5.5）的动机是优化控制随机偏微分方程（SPDE）的问题：vt（t，x）=αvx（t，x）+u（x）+σWt型x（t，x），x∈ [0，L]，v（t，x=0）=v（0），v（t，x=L）=v（L），v（t=0，x）=v（x），（5.1）图3：顶部：绝对误差。底部：误差百分比。

28楼

kedemingshi

发表于 2022-6-1 06:44:31

参考，u（0，X）∈ [0.10119，0.10193]，时间T的溶液为max（x的平均值- 1, 0).其中，u（x）是对照，W（t，x）是布朗表（即。，Wt型x（t，x）是在随机基础上定义的时空白噪声(Ohm, F、英尺，P）。平方可积，适用于过滤Ft，控制u是一个源项/下沉项，可用于引导温度v（t，x）朝向[0，L]上的目标曲线v（x）。正如【10】中所讨论的那样，此类问题在适当的广义意义上具有唯一的解决方案，参见【10】中的定理3.1。x=0，L处的端点保持在目标温度。具体而言，最优控制最小化Z∞e-γsZL（v（s，x）- (R)v（x））+λu（x）dxds. （5.2）常数γ>0是一个贴现因子。常数λ>0会对控制u（x）的较大值进行惩罚。目标是在消耗最小能量的同时达到目标v（x）。最优控制u（x）满足有限维HJB方程。我们请读者参考[10]中的定理5.3和5.4以及[14]和[36]，以分析随机热方程的有限维HJB方程。SPDE（5.1）所代表的一个问题示例是将杆加热到目标温度pro文件。可以控制沿着杆的长度施加到杆的每个部分的热量。由于其他环境因素，棒的温度也存在随机波动，这由布朗表W（t，x）表示。目标是在消耗最少能量的情况下，将杆的温度曲线引导至目标曲线；参见目标函数（5.2）。（5.1）可以在空间中离散，从而产生随机微分方程（SDE）系统。（例如，见[19]第3.2节。）该SDEs系统可用于推导价值函数和最优控制的有限高维PDE。

29楼

nandehutu2022

发表于 2022-6-1 06:44:34

也就是说，我们首先用SDEs的有限维系统近似SPDE，然后求解与SDEs的有限维系统相对应的高维PDE。dXjt=α（Xj+1t- 2Xjt+Xj-1t）dt+Ujtdt+σ√dWjt，Xj=v（j), （5.3）其中是网格大小，v（t，j) = Xjt，u（j) = Ujt和Wjt是独立的标准布朗运动（关于本节中考虑的形式的随机抛物型偏微分方程的数值格式，请参见[12]、[21]和[19]）。SDE系统（5.3）的尺寸为d=L-请注意，（5.3）对（5.1）中的差异项使用了中心差异模式。目标函数（5.2）变为：V（x）=input∈UE公司Z∞e-γsdXj=1（Xjs- \'\'v（j))+ λ（Ujs）ds公司X=X. （5.4）值函数V（x）满足d空间维度x，x，…，的非线性偏微分方程，除息的。0 = （十）- v）>（x- (R)v）-4λdXj=1五、xj（x）+σ2dXj=1五、xj（x）+αdXj=1（xj+1- 2xj+xj-1)五、xj（x）- γV（x）。（5.5）向量“v=（“v”）(), (R)v（2), . . . , \'\'v（d)). 请注意，值xd+1=(R)v（L）和x=(R)v（0）是常量，对应于（5.1）中的边界条件。PDE（5.5）是高维的，因为维数d=L- 1、最优控制isUjt=-2λ五、xj（Xt）。（5.6）我们使用d=21维的深度学习算法求解PDE（5.5）。域的大小isL=10-1、系数为α=10-4, σ = 10-, λ=1，γ=1。目标值为“v（x）=0。由于（5.5）提供了半解析解，因此可以评估深度学习算法的精度。图4显示了空间上误差百分比的等高线图。等高线图的生成方式如下：1。样本空间点x`=（x`，…，x`），从（5.3）的分布中获得，`=1，五十、 2。计算每个采样点的误差百分比。误差百分比为A`=| f（x`；θ）-V（x`）| | V（x`）|×100%。3.

30楼

mingdashike22

发表于 2022-6-1 06:44:37

在二维子空间上聚合精度x`，Xi=1x`i，A`对于`=1，五十、 PDE（5.5）具有满足Riccati方程的半解析解。Riccati方程可以用迭代法求解。4、根据数据绘制等高线图x`，Xi=1x`i，A`L`=1。x轴为x，y轴为平均值XI=1xi。这分别对应于中点x=处的v（t，x）和平均lrlv（t，x）dx。整个空间的平均误差百分比为0.1%。图4:21维HamiltonJacobi-Bellman偏微分方程深度学习算法的误差百分比等值线图。横轴是第11个维度。纵轴是所有尺寸的平均值。最后，我们在结束这一部分时提到，在最近的论文【15】（另见【2】）中，作者开发了一种机器学习算法，该算法可以提供一类HJB方程在单个时间和空间点的解的值，该方程允许通过Cole-Hopf变换获得显式解。他们的方法依赖于通过倒向随机微分方程（BSDE）描述解的特征。相反，目前的工作（a）不依赖于通过非线性费曼-卡夫公式的BSDE类型表示，以及（b）允许恢复整个对象（即跨所有时间和空间点的解）。6 Burgers方程在一系列问题设置（例如，不同的物理条件和边界条件）上找到偏微分方程的解通常是有意义的。例如，这可能有助于工程系统的设计或不确定性量化。问题设置空间可能是高维的，因此可能需要为许多不同的问题设置解决许多PDE，这可能在计算上很昂贵。让变量p表示问题设置（即物理条件、边界条件和初始条件）。

[量化金融] DGM：一种求解偏微分方程的深度学习算法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群