楼主: nandehutu2022
1955 64

[量化金融] 求解非线性高维偏微分方程 [推广有奖]

41
可人4 在职认证  发表于 2022-6-11 04:30:19
对于训练数据,网络使用从定义函数的区域随机采样的点,并使用随机梯度下降进行优化。这种方法的主要观点在于,训练数据由函数域中的随机采样点组成。通过从域的不同部分采样小批次并按顺序处理这些小批次,神经网络“学习”函数,而不存在基于网格方法的计算瓶颈。这避免了后一种方法遇到的维度诅咒。5.2数学细节感兴趣的偏微分方程的形式通常描述如下:设u为区域[0,T]上定义的时间和空间的未知函数×Ohm 哪里Ohm  Rd,并假设u满足PDE:(t+L)u(t,x)=0,(t,x)∈ [0,T]×Ohmu(0,x)=u(x),x∈ Ohm (初始条件)u(t,x)=g(t,x),(t,x)∈ [0,T]×Ohm (边界条件)目标是用参数集为θ的adeep神经网络给出的逼近函数f(t,x;θ)逼近u。关联训练问题的损失函数由三部分组成:1。衡量近似值满足微分算子的程度:(t+L)f(t,x;θ)[0,T]×Ohm, ν注:将f参数化为神经网络意味着可以使用反向传播轻松计算微分算子。2、衡量近似值满足边界条件的程度:f(t,x;θ)- g(t,x)[0,T]×Ohm, ν3. 衡量近似值满足初始条件的程度:f(0,x;θ)- u(x)Ohm, ν在上述所有三项中,误差是根据L-范数测量的,即。

42
大多数88 在职认证  发表于 2022-6-11 04:30:21
使用h(y)Y、 ν=RY | h(Y)|ν(Y)dy,其中ν(Y)是区域Y上定义的密度。结合上述三项,我们可以得到与训练神经网络相关的成本函数:L(θ)=(t+L)f(t,x;θ)[0,T]×Ohm,ν|{z}微分算子+f(t,x;θ)- g(t,x)[0,T]×Ohm,ν|{z}边界条件+f(0,x;θ)- u(x)Ohm,ν|{z}初始条件下一步是使用随机梯度下降最小化损失泛函。更具体地说,我们采用图5.1中定义的算法。图5.1中的描述应被视为一个总体轮廓,因为算法应根据所考虑的PDE的特殊性质进行修改。1、初始化参数集θ和学习率αn.2。从域的内部和时间/空间边界生成随机样本,即从[0,T]×生成(tn,xn)Ohm 根据νo从[0,T]×生成(τn,zn)Ohm 根据νo生成wnfromOhm, 根据ν3。计算当前小批量的损失函数(随机采样点sn={(tn,xn),(τn,zn),wn}):o计算L(θn;tn,xn)=((t+L)f(θn;tn,xn))o计算L(θn;τn,zn)=(f(τn,zn)- g(τn,zn))o计算L(θn;wn)=(f(0,wn)- u(wn))o计算L(θn;sn)=L(θn;tn,xn)+L(θn;τn,zn)+L(θn;zn)4。在随机点SN处采取下降步骤,基于Adam的学习率:θn+1=θn- αnθL(θn;sn)5。重复步骤(2)-(4),直到kθn+1- θnk很小。图5.1:深伽辽金法(DGM)算法。需要注意的是,这里描述的问题严格来说是一个优化问题。这与典型的机器学习应用不同,在机器学习应用中,我们关注的是欠匹配、过匹配和泛化问题。通常,得出损失函数等于零的参数集是不可取的,因为这表明存在某种形式的过度拟合。

43
mingdashike22 在职认证  发表于 2022-6-11 04:30:24
然而,在这种情况下,实现这一目标的神经网络是PDE athand的解决方案。唯一与泛化相关的情况是,我们无法在定义函数的区域内的任何地方采样点,例如无界域上定义的函数。在这种情况下,我们将有兴趣检查函数在这些未采样区域中满足PDE的程度。下一章的结果表明,这种泛化通常很差。5.3神经网络近似理论Sirignano和Spiliopoulos(2018)给出了使用神经网络近似解的理论动机,这是一个优雅的结果,与普遍近似定理类似。更具体地说,当隐层数趋于一致时,深层神经网络逼近器收敛到一类拟线性抛物型偏微分方程的解。为了用更精确的数学术语表述结果,请定义以下内容:oL(θ),用于测量神经网络对微分算子和边界/初始/终端条件的影响的损失函数;oCn,一类具有n个隐藏单元的神经网络;ofn=arg minf∈CnL(θ),对PDEsolution的最佳n层神经网络逼近。主要结果是神经网络逼近器收敛到truePDE解:fn→ u为n→ ∞更多细节、条件、定理陈述和证明见Sirignano和Spiliopoulos(2018)第7节。应该注意的是,与通用近似定理类似,该结果并没有规定一种成功设计或估计神经网络的方法。5.4实施细节Sirignano和Spiliopoulos(2018)采用的架构类似于前一章中描述的STMS和公路网。

44
nandehutu2022 在职认证  发表于 2022-6-11 04:30:27
它由三层组成,我们称之为DGM层:输入层、隐藏层和输出层,尽管这可以很容易地扩展以允许额外的隐藏层。从鸟瞰的角度来看,每个DGM层将原始minibatch输入x(在我们的示例中,这是随机采样的时空点集)和前一个DGM层的输出作为输入。该过程以向量值输出y结束,该输出y由在小批量点处评估的所需函数u的神经网络近似值组成。整体架构的可视化见图5.2。w·x+bSxDGM LayerDGM LAYERSG LayerSL+1w·SL+1+乘以σ图5.2:DGM总体架构鸟瞰图。在DGM层中,通过一系列与公路网中的操作非常相似的操作来转换前一层的小批量输入和输出。下面,我们展示了方程式中的架构以及图5.3中单个DGM层的视觉表示:S=σw·x+bZ`=σuz、`·x+wz、`·S`+bz、`` = 1.LG`=σug、`·x+wg、`·S`+bg、`` = 1.LR`=σur,`·x+wr,`·S`+br`` = 1.LH`=σ呃,`·x+wh`·S` R`+ 伯克希尔哈撒韦`` = 1.LS`+1=1.- G级` H`+Z` S`=1。。。,Lf(t,x;θ)=w·SL+1+b此处 表示Hadamard(元素级)乘法,L是总层数,σ是激活函数,具有各种上标的u、w和b项是模型参数。与LSTMs的直觉类似,每一层都基于最后一层生成权重,确定有多少信息传递给下一层。Insignano和Spiliopoulos(2018)的作者还认为,包括非线性函数的重复元素乘法有助于捕捉更复杂函数中出现的“急转”特征。

45
能者818 在职认证  发表于 2022-6-11 04:30:30
注意,在每次迭代时,原始输入进入每个中间步骤的计算,从而降低输出函数相对于x的梯度消失的概率。与多层感知器(MLP)相比,DGM网络每个隐藏层中的参数数量大约是相同的LDXUZ·x+wz·S+bzug·x+wg·S+bgur·x+wr·S+bhZGR的八倍(1- G) H+Z Suh·x+wh·(S) R) +bhHSnew∑∑∑∑∑图5.3:单个DGM层内的操作。通常密集层中的数量。由于每个DGM网络层有8个权重矩阵和4个偏差向量,而MLP网络只有一个权重矩阵和一个偏差向量(假设矩阵/向量大小彼此相似)。因此,与深度MLP不同,DGM体系结构能够处理渐变消失的问题,同时具有足够的灵活性来建模复杂功能。关于Hessian实现的备注:二阶微分方程需要计算二阶导数。原则上,给定一个深度神经网络f(t,x;θ),通过自动微分计算高阶导数是可能的。但是,给定x∈ r对于n>1的情况,由于二阶导数的平方数以及算法计算较大小批量的该数量的内存不足,这些导数的计算在计算上变得非常昂贵。因此,我们按照第3章中讨论的方法实现了一种有限差分方法来计算Hessian。特别是,对于每个样本点x,我们计算神经网络的值及其在点x+hejand x的梯度- hej,对于每个正则向量ej,其中h是步长,并通过中心微分估计Hessian,从而得到O(h)阶精度。

46
何人来此 在职认证  发表于 2022-6-11 04:30:33
然后,通过变换0.5(H+HT)对所得矩阵H进行对称化。第6章深伽辽金方法的实施本章中,我们应用深伽辽金方法来解决金融环境中出现的各种偏微分方程,如第2章所述。将神经网络应用于数值求解偏微分方程(以及其他问题)需要大量的实验和实施决策。即使有使用DGM方法的基本策略,也有许多决策需要做出,包括:o网络架构;o用于在执行时间和准确性之间实现良好平衡的神经网络的大小;o激活函数和其他超参数的选择;o随机抽样策略、优化和数值(如微分和积分)算法的选择、训练强度编程环境。有鉴于此,我们的方法是从简单且更易管理的PDE开始,然后随着绊脚石逐渐被克服,转向更具挑战性的障碍。我们给出了将DGM应用于以下问题的结果:1。欧洲看涨期权:我们从Black-Scholes偏微分方程开始,这是一种线性偏微分方程,具有简单的分析解,是金融领域的主力模型。这也为其余问题创建了基本设置。美式看跌期权:接下来,我们讨论美式期权,其主要挑战是自由边界问题,需要找到自由边界问题作为问题解决方案的一部分。这要求我们调整算法(尤其是损失函数)来处理问题的这一特定细节。3、福克-普朗克方程:随后,我们讨论了福克-普朗克方程,其解是一个概率密度函数,该函数具有特殊的约束条件(例如在其域上为正并积分为1),该方法需要满足这些约束条件。4.

47
可人4 在职认证  发表于 2022-6-11 04:30:36
随机最优控制问题:对于更高要求的挑战,我们关注HJB方程,它可能是高度非线性的。特别地,我们考虑了两个最优控制问题:默顿问题和最优执行问题。系统风险:系统风险问题允许我们将该方法应用于多维HJB方程组,该方程组涉及多个变量和高度非线性的方程组。平均场对策:最后,我们用平均场对策来结束我们的工作,平均场对策是由熟悉的HJB和福克-普朗克方程组成的。我们成功应用该方法解决的各种问题证明了DGM方法的威力和灵活性。6.1本章的组织方式本章的每一节都强调了上述列表中提到的一个案例研究。我们从PDE及其解析解的陈述开始,然后提出(可能有几个)基于DGM方法的尝试性数值解。演示的方式突出了我们实现的体验方面。因此,我们提出的第一个解决方案是nomeans提出的,我们希望展示围绕DGM的学习过程,以及我们的解决方案是如何改进的。每一个例子都是为了强调所面临的不同挑战——通常与问题的多样性有关,而这一问题的例子通常越来越多——以及谚语中的“故事的道德性”一个重要的警告是,在某些情况下,我们无法解决所有问题,因为在每一节开头给出的PDE并不总是以其原始形式出现。原因是PDE可能太复杂,无法直接在DGM框架中实现。HJB方程尤其如此,它将优化步骤作为一阶条件的一部分。

48
大多数88 在职认证  发表于 2022-6-11 04:30:39
在这些情况下,我们要么使用简化的ansatzes获得PDE的简化版本,但我们强调,即使是这些也可能有很大的困难。备注(关于实现的说明):在所有即将到来的示例中,我们使用Sirignano和Spiliopoulos(2018)使用的samenetwork架构,见第5章,使用Xavier初始化权重。对网络进行了多次迭代(历次)训练,这些迭代可能因示例而异,每10次迭代对内部和终端条件下的点进行随机重采样。我们还对规则密集前馈神经网络进行了实验,并成功地解决了第一个问题(欧洲选项),但我们发现它们不太可能拟合更不规则的函数,也更不稳定的超参数变化。6.2欧洲呼叫选项1:一维Black-Scholes PDE(tg(t,x)+rx·xg(t,x)+σx·xxg(t,x)=r·g(t,x)g(t,x)=g(x)溶液:g(t,x)=xΦ(d+)- Ke公司-r(T-t) Φ(d-)式中,d±=ln(x/K)+(r±σ)(T-t) σ√T-作为DGM方法的第一个示例,我们对网络进行了培训,以了解欧洲看涨期权的价值。在我们的实验中,我们使用利率r=5%,波动率σ=25%,初始股票价格S=50,到期时间T=1,期权的执行价格K=50。在图6.2中,我们给出了到期前不同时间的真实值和估计值。首先,我们在时间域上均匀采样,并根据空间域上的对数正态分布进行采样,因为这是该模型中股票价格遵循的精确分布。

49
mingdashike22 在职认证  发表于 2022-6-11 04:30:42
我们还在终点时间点均匀取样。然而,我们发现这对于估计的函数并没有产生好的结果。这些采样点和fits可以在图6.1和图6.2中的绿色点和线中看到。图6.1:不同的抽样方案:对数正态分布(绿色)、均匀分布于[0,1]×[0,100](蓝色)和均匀分布于[0,1]×[0,130](红色)由于问题似乎出现在抽样不充分的地区,我们回到Sirignano和Spiliopoulos(2018)的方法,并在感兴趣的地区均匀分布于[0,1]×[0,100]。这改善了fit,如图6.2的蓝线所示,然而,图的右端仍然存在问题,最终溶液浸泡得太早。最后,我们在[0,1]×[0,130]上的感兴趣区域之外均匀采样,以显示位于感兴趣区域右侧的DGM网络点。这产生了最好的效果,如图6.2中的红线所示。另一点值得注意的是,对于接近成熟期的时间,误差较小。这种行为的原因可能是因为评估过程是从终端条件“提取信息”。由于此项是显式惩罚项,并且从中进行了大量采样,因此这会导致estimatedfunction在该区域中表现良好。

50
可人4 在职认证  发表于 2022-6-11 04:30:45
当我们离开这个时间点时,这种稳定作用减弱,导致错误增加。图6.2:看涨期权价格作为股价的函数:黑色虚线是真实值函数,使用black和Scholes公式计算;绿色、蓝色和红色线条对应上述三种采样方法。寓意:抽样方法很重要!6.3美式看跌期权2:带自由边界的Black-Scholes PDEtg+rx·xg+σx·xxg- r·g=0{(t,x):g(t,x)>g(x)}g(t,x)≥ G(x)(t,x)∈ [0,T]×Rg(T,x)=G(x)x∈ rw其中G(x)=(K- x) +溶液:无分析溶液。为了进一步测试DGM网络的能力,我们对网络进行了培训,以了解美式看跌期权的价值。与欧洲变体相比,这是朝着增加复杂性迈出的一步,因为美式期权PDE公式包括自由边界条件。我们使用与欧式看涨期权相同的参数:r=5%,σ=25%,S=50,T=1和K=50。在我们的第一次尝试中,我们使用Sirignano和Spiliopoulos(2018)规定的方法对网络进行了培训。解决自由边界问题的方法是在感兴趣的区域(t)上均匀采样∈ [0,1],S∈ (在我们的案例中为0,100),并接受/拒绝该特定批次点的训练示例,这取决于它们是否在最后一次迭代训练所暗示的边界区域之内或之外。这种方法能够正确地恢复optionvalues。作为一种替代方法,我们使用了不同的损失函数公式,该公式考虑了自由边界条件,而不是接受/拒绝方法。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 06:07