DGM：一种求解偏微分方程的深度学习算法 - 第2页 - 外文文献专区

11楼

发表于 2022-6-1 06:43:38

然而，借用一种机器学习方法，我们可以使用随机梯度下降法来最小化J（f），该方法是在从Ohm 和Ohm. 这样可以避免形成网格。DGM算法为：1。从[0，T]×生成随机点（tn，xn）Ohm 和（τn，zn）从[0，T]×开始Ohm 根据各自的概率密度ν和ν。同时，从中绘制随机点wnfromOhm 概率密度ν。2、计算随机采样点sn={（tn，xn），（τn，zn），wn}处的平方误差G（θn，sn），其中：G（θn，sn）=ft（tn，xn；θn）+Lf（tn，xn；θn）+f（τn，zn；θn）- g（τn，zn）+f（0，wn；θn）- u（wn）.3、在随机点sn处采取下降步骤：θn+1=θn- αnθG（θn，sn）4。重复此步骤，直到满足收敛标准。“学习速率”αn随n而增加。步骤θG（θn，sn）是θJ（f（·；θn））：EθG（θn，sn）θn= θJ（f（·；θn））。因此，随机梯度下降算法将平均在目标函数J的下降方向上采取步骤。下降方向意味着目标函数在迭代后减少（即，J（f（·；θn+1））<J（f（·；θn））），因此，在（相对温和的）技术条件下，θn+1是比θn更好的参数估计（见[3]），算法θnwill收敛到目标函数J（f（·；θ））的临界点，即n→ ∞:画→∞kθJ（f（·；θn））k=0。需要注意的是，当f（t，x；θ）是非凸的时，θnmay只能收敛到局部极小值。这通常适用于非凸优化，而不是本文算法的特例。特别是，深层神经网络是非凸的。因此，众所周知，对于神经网络，随机梯度下降只能收敛到局部最小值（而不是全局最小值）。

12楼

可人4

发表于 2022-6-1 06:43:41

然而，实践证明，随机梯度下降非常有效，是几乎所有深度学习模型训练方法的基本组成部分。3快速计算二阶导数的蒙特卡罗方法本节描述了一种改进的算法，在某些情况下，该算法可能更高效。项Lf（t，x；θ）包含二阶导数fxixj（t，x；θ），在高维中计算可能会很昂贵。例如，20000个二阶导数必须以d=200维计算。神经网络的复杂结构使得计算二阶导数的计算成本很高（例如，请参见神经网络结构（4.2））。计算二阶导数（在总算术运算和内存中）的计算成本为O（d×N），其中d是x的空间维度，N是批量大小。相比之下，计算一阶导数的计算成本为O（d×N）。由于我们实际上需要三阶导数，与二阶导数相关的成本进一步增加θfx（t，x；θ）表示随机梯度下降算法。与直接计算这些二阶导数不同，我们使用蒙特卡罗方法近似二阶导数。假设Lf（t，x，；θ）中的二阶导数之和的形式为pdi，j=1ρi，jσi（x）σj（x）fxixj（t，x；θ），假设[ρi，j]di，j=1为正定义矩阵，定义σ（x）=σ（x），σd（x）. 例如，当考虑随机微分方程的函数期望时，会出现这种情况，其中σ（x）表示微分系数。见方程式（4.1）和相应的讨论。也可以将本节中的算法推广到非线性系数依赖于u（t，x）的二阶导数。

13楼

大多数88

发表于 2022-6-1 06:43:44

那么，dXi，j=1ρi，jσi（x）σj（x）fxixj（t，x；θ）=lim→0EdXi=1fxi（t，x+σ（x）W; θ) -fxi（t，x；θ）σi（x）Wi, （3.1）其中Wt∈ Rdis是布朗运动 ∈ R+是步长。（3.1）的收敛速度为O(√).设f是x上的三次可微函数，x上有界的三阶导数。然后，直接从泰勒展开式得出：Pdi，j=1ρi，jσi（x）σj（x）fxixj（t，x；θ）- EPdi=1fxi（t，x+σ（x）W;θ)-fxi（t，x；θ）σi（x）Wi≤ C（x）√.常数C（x）取决于ρ、fxxx（t，x；θ）和σ（x）。定义：G（θn，sn）：=ft（tn，xn；θn）+Lf（tn，xn；θn）,G（θn，sn）：=f（τn，zn；θn）- g（τn，zn）,G（θn，sn）：=f（0，wn；θn）- u（wn）,G（θn，sn）：=G（θn，sn）+G（θn，sn）+G（θn，sn）。DGM算法使用梯度θG（θn，sn），需要计算Lf中的二阶导数（tn，xn；θn）。将一阶导数运算符定义为Lf（tn，xn；θn）：=Lf（tn，xn；θn）-dXi，j=1ρi，jσi（xn）σj（xn）fxixj（tn，xn；θ）。使用（3.1），θGis近似为带固定常数的▄gw > 0：~G（θn，sn）：=2ft（tn，xn；θn）+Lf（tn，xn；θn）+dXi=1fxi（t，xn+σ（xn）W; θ) -fxi（t，xn；θ）σi（xn）Wi× θft（tn，xn；θn）+Lf（tn，xn；θn）+dXi=1fxi（t，xn+σ（xn）~W; θ) -fxi（t，xn；θ）σi（xn）~Wi,其中W是一个具有E[W]的d维正态随机变量] = 0和Cov[（W)i、（W）)j] =ρi，j.W与W具有相同的分布. W和▄W都是独立的。~G（θn，sn）是θG（θn，sn）。G（θn，sn）有O(√) 作为近似值的偏差θG（θn，sn）。

14楼

何人来此

发表于 2022-6-1 06:43:47

这种近似误差可以通过使用“对偶变量”的以下方案进一步改进：▄G（θn，sn）：=▄G1，a（θn，sn）+▄G1，b（θn，sn）（3.2）▄G1，a（θn，sn）：=ft（tn，xn；θn）+Lf（tn，xn；θn）+dXi=1fxi（t，xn+σ（xn）W; θ) -fxi（t，xn；θ）σi（xn）Wi× θft（tn，xn；θn）+Lf（tn，xn；θn）+dXi=1fxi（t，xn+σ（xn）~W; θ) -fxi（t，xn；θ）σi（xn）~Wi,G1，b（θn，sn）：=ft（tn，xn；θn）+Lf（tn，xn；θn）-dXi=1fxi（t，xn）- σ（xn）W; θ) -fxi（t，xn；θ）σi（xn）Wi× θft（tn，xn；θn）+Lf（tn，xn；θn）-dXi=1fxi（t，xn- σ（xn）~W; θ) -fxi（t，xn；θ）σi（xn）~Wi.近似值（3.2）为O() 作为近似值的偏差θG（θn，sn）。（3.2）使用对偶变量，从这个意义上讲，G1，a（θn，sn）使用随机变量（W,W) 而▄G1，b（θn，sn）使用(-W, -W).有关模拟算法中对偶变量的背景信息，请参见[1]。可以使用泰勒展开来表示近似误差为(). 重要的是要强调，没有计算成本与; 任意小的无需额外计算成本即可选择（尽管可能存在数值欠流或过流问题）。对二阶导数使用Monte Carlo近似的改进算法为：1。从[0，T]×生成随机点（tn，xn）Ohm 和（τn，zn）从[0，T]×开始Ohm 根据各自的密度ν和ν。同时，从中绘制随机点wnfromOhm 密度ν。2、计算步长▄G（θn，sn）=▄G（θn，sn）+θG（θn，sn）+θG（θn，sn）在随机采样点sn={（tn，xn），（τn，zn），wn}。~G（θn，sn）是θG（θn，sn）。3、在随机点sn处迈出一步：θn+1=θn- αnG（θn，sn）4。重复此过程，直到满足收敛标准。总之，此处的修改算法在计算上比第2节中的原始算法便宜，但会引入一些偏差和方差。

15楼

能者818

发表于 2022-6-1 06:43:50

方差实质上增加了随机梯度下降步骤中的i.i.d.噪声；但是，在大量样本中，这种噪声是平均值。第2节中的原始算法是无偏的，方差较小，但计算成本较高。我们在第4节中数值实现了一类自由边界偏微分方程的算法。未来的研究可能会研究其他方法，以进一步改进二阶导数的计算评估（例如，多层蒙特卡罗）。4高维自由边界偏微分方程的数值分析我们在一类高维自由边界偏微分方程上测试了我们的算法。这些自由边界PDE用于为美式期权定价，通常被称为“美式期权PDE”。美国期权（Americanoption）是股票投资组合的金融衍生品。期权所有人可随时∈ [0，T]选择行使美式期权，并获得由投资组合中股票的基础价格决定的回报。T称为期权的到期日，支付函数为g（x）：Rd→ R、 LetXt公司∈ Rdbe是d股票的价格。如果在时间t，股票价格Xt=x，则期权价格为u（t，x）。价格函数u（t，x）满足[0，t]×Rd上的自由边界PDE。对于美式期权，解决方案u（0，x）最感兴趣，因为这是购买或出售期权的公平价格。除了高维和自由边界外，美式期权PDE的数值求解也具有挑战性，因为支付函数g（x）（既出现在初始条件中，又确定自由边界）不是连续可微的。第4.1节说明了自由边界偏微分方程和求解该方程的深度学习算法。为了解决自由边界问题，我们用迭代方法补充了第2节中提出的算法；见第4.1节。

16楼

可人4

发表于 2022-6-1 06:43:53

第4.2节描述了神经网络的体系结构和实现细节。第4.3节报告了存在半解析解的情况下的数值精度。第4.4节报告了不存在半解析解的情况下的数值准确性。4.1自由边界PDE现在指定u（t，x）的自由边界PDE。股票价格动态和期权价格为：dXit=u（Xit）dt+σ（Xit）dWit，u（t，x）=supτ≥tE[e-r（τ∧T）g（Xτ∧T） | Xt=x]，其中Wt∈ RDI是标准布朗运动，Cov[dWit，dWjt]=ρi，jdt。Americanoption的价格是u（0，X）。股票价格动态模型（4.1）在实践中得到了广泛应用，并捕捉到了一些可取的特征。首先，漂移u（x）衡量股票价格的“平均”增长。布朗运动WT代表股票价格的随机性，随机性的大小由系数函数σ（Xit）给出。股票价格的变动是相关的（例如，如果微软的价格上涨，苹果的价格很可能也会上涨）。两支股票i和j之间的相关性大小由参数ρi，j确定。著名的Black-Scholes模型u（x）=ux，σ（x）=σx就是一个例子。在Black-Scholes模型中，每支股票的平均回报率为u。美式期权是一种金融衍生工具，所有者可以随时选择“行使”∈ [0，T]。如果所有者行使期权，他们将获得财务报酬（Xt），其中Xt是标的股票的价格。如果业主不选择行使期权，他们将在最终时间T收到付款（XT）。时间t时美式期权的价值（或价格）为u（t，Xt）。

17楼

kedemingshi

发表于 2022-6-1 06:43:56

支付函数g（x）的一些典型示例：Rd→ R为g（x）=最大值（Qdi=1xi）1/d-K、 0个g（x）=最大值dPdi=1xi-K、 0个.前者被称为“几何Payoff函数”，而后者被称为“算术Payoff函数”K是“执行价格”，是一个正数。（4.1）中的价格函数u（t，x）是自由边界PDE的解，将满足：0=ut（t，x）+u（x）·ux（t，x）+dXi，j=1ρi，jσ（xi）σ（xj）uxixj（t，x）- ru（t，x），（t，x）：u（t，x）>g（x）.u（t，x）≥ g（x），（t，x）。u（t，x）∈ C（R+×Rd），（t，x）：u（t，x）=g（x）.u（T，x）=g（x）， x、（4.1）自由边界集为F=（t，x）：u（t，x）=g（x）. u（t，x）满足自由边界集F上方的偏微分方程，u（t，x）等于自由边界集F下方的函数g（x）。求解PDE（4.1）的深度学习算法需要模拟自由边界集F上下的点。我们使用迭代方法来处理自由边界。自由边界集Fis使用当前参数估计θn进行近似。该近似自由边界用于我们模拟点的概率度量。对于用于模拟随机点的概率密度的θ输入，不采用梯度。为此，确定目标函数：J（f；θ，|θ）=ft（t，x；θ）+u（x）·fx（t，x；θ）+dXi，j=1ρi，jσ（xi）σ（xj）fxixj（t，x；θ）- rf（t，x；θ）[0，T]×Ohm,ν（￠θ）+kmax（g（x）- f（t，x；θ），0）k[0，t]×Ohm,ν（￠θ）+kf（T，x；θ）- g（x）kOhm,ν.在方向上采取下降步骤-θJ（f；θ，|θ）。ν（|θ）和ν（|θ）是|带|B中点的密度，定义如下。深度学习算法为：1。从[0，T]×生成点B={tm，xm}Mm=1的随机批次Ohm 根据概率密度ν。选择点▄B={（t，x）∈ B： f（t，x；θn）>g（x）}。2.

18楼

可人4

发表于 2022-6-1 06:43:59

从[0，T]×生成点B={τm，zm}Mm=1的随机批次Ohm 根据概率密度ν。选择点▄B={（τ，z）∈ B： f（τ，z；θn）≤ g（z）}。3、随机生成一批点B={wm}Mm=1Ohm 概率密度ν。4、在随机采样点Sn={B，~B，B}处，将J（f；θn，~θn）近似为J（f；θn，Sn）：J（f；θn，Sn）=| B | X（tm，xm）∈Bft（tm，xm；θn）+u（xm）·fx（tm，xm；θn）+dXi，j=1ρi，jσ（xi）σ（xj）fxixj（tm，xm；θn）- rf（tm，xm；θn）+|B | X（τm，zm）∈Bmaxg（zm）- f（τm，zm；θn），0+|B | Xwm∈Bf（T，wm；θ）- g（wm）.5、对随机批次Sn进行下降步骤：θn+1=θn- αnθJ（f；θn，Sn）。6、重复上述步骤，直到满足收敛标准。上述算法中的二阶导数可以使用第3.4.2节算法实现细节中的方法进行近似。本节提供了算法实现的细节，包括DGM网络架构、超参数和计算方法。神经网络的结构对其成功至关重要。通常，不同的应用程序需要不同的体系结构。例如，卷积网络对于图像识别至关重要，而长短时网络（LSTM）对于序列数据建模非常有用。巧妙地选择架构，利用应用程序的先验知识，可以显著提高性能。在本文的PDEapplications中，我们发现与LSTMnetworks的神经网络架构在精神上类似的神经网络架构提高了性能。PDE解决方案需要一个模型f（t，x；θ），该模型可以根据最终条件进行“急转弯”，其形式为u（t，x）=max（p（x），0）（当p（x）=0时，一阶导数不连续）。

19楼

何人来此

发表于 2022-6-1 06:44:02

对于t<t的解u（t，x）的形状，虽然在偏微分方程中通过微分项“平滑”，但仍将具有非线性特性，在某些空间区域中快速变化。特别是，我们发现以下网络架构有效：S=σ（W→x+b），Z`=σ（Uz`→x+Wz，`S`+bz，`），`=1，五十、 G`=σ（Ug`→x+Wg，`S+bg，`），`=1，五十、 R`=σ（Ur`→x+Wr，`S`+br，`），`=1，五十、 H`=σ（Uh`→x+Wh，`（S）` R`）+bh，`），`=1，五十、 S`+1=（1- G`） H`+Z` S`，`=1，五十、 f（t，x；θ）=WSL+1+b，（4.2），其中→x=（t，x），隐藏层的数量为L+1，并且表示元素乘法（即z 五=zv，zNvN公司). 参数为θ=W、 b、，Uz，`，Wz，`，bz`L`=1，Ug、`、Wg、`、bg、`L`=1，Ur，`，Wr，`，br`L`=1，呃，`，Wh，`，bh`L`=1，W，b.每层单元数为M，σ：RM→ RMis是元素非线性：σ（z）=φ（z），φ（z），φ（zM）, （4.3）式中φ：R→ R是一个非线性激活函数，如tanh函数、sigmoidal函数ey1+ey、校正线性单位（ReLU）max（y，0）。θ中的参数具有尺寸W∈ RM×（d+1），b∈ RM、Uz、`∈ RM×（d+1），Wz`∈ RM×M，bz`∈ RM、Ug、`∈ RM×（d+1），Wg`∈ RM×M，bg`∈ RM，Ur`∈ RM×（d+1），Wr`∈ RM×M，br`∈ RM呃`∈ RM×（d+1），Wh`∈ RM×M，bh`∈ RM，W∈ R1×M和b∈ R、体系结构（4.2）相对复杂。在每一层中，实际上有许多计算的“子层”。其重要特征是输入非线性函数的重复元素相乘。这有助于建模在某些时空区域快速变化的更复杂函数。

20楼

大多数88

发表于 2022-6-1 06:44:05

神经网络体系结构（4.2）类似于LSTM网络（见【24】）和公路网络（见【47】）的体系结构。神经网络（4.2）中的关键超参数是层数L、每个子层中的单元数SM以及激活单元φ（y）的选择。我们发现，对于本文中的应用，超参数L=3（即四个隐藏层）、M=50和φ（y）=tanh（y）是有效的。值得注意的是，选择φ（y）=tanh（y）意味着f（t，x；θ）是光滑的，因此可以求解偏微分方程的“经典解”。使用Xavierinitialization初始化神经网络参数（参见[18]）。如果σ（·）是tanh或sigmoidal函数，则架构（4.2）在输入x中有界（对于参数θ的固定选择）；允许网络无界以接近无界/增长函数可能会有所帮助。我们发现，用身份函数替换H`子层中的σ（·）可以有效地发展无界网络。我们强调，网络的唯一输入是（t，x）。我们不使用（t，x）的任何定制非线性转换。如果选择得当，这些额外的输入可能有助于提高性能。例如，可以将欧式期权PDE解决方案（具有分析公式）作为输入。也可以在算法的目标函数中包含正则化项（例如“惩罚”）。这种正则化术语用于减少机器学习模型估计数据集（数据样本数量有限）中的过度拟合。

[量化金融] DGM：一种求解偏微分方程的深度学习算法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群