上随机控制问题的深层神经网络算法 - 第3页 - 外文文献专区

21楼

发表于 2022-6-11 06:41:06

αopt=0；当终端时间接近时，将X推向0，以最小化终端成本。测试2算法测试在维度1中提出，终端成本为g（x）=-xγ0≤x个≤1.- 11≤X和γ∈ (0, 1). [Ric10]中已经考虑了这个问题，作者提出了一种基于PDE（3.1）BSDE表示的智能时间离散化算法，以处理BSDE驱动的二次增长，以及常用的基函数投影技术，用于近似与BSDE相关的动态规划方程中出现的条件期望。我们参考[Ric11]中的等式（13）、（14）、（15）了解所提出算法的详细信息，并参考其定理4.14了解收敛结果。当γ=1、0.5、0.1、0时，其在时间0和状态0时的valuefunction估计值在[Ric10]中可用，并已在表1的Y&R列中报告。此外，已使用闭合式公式（3.4）通过蒙特卡罗计算γ值的值函数的准确值，并在表1的列台中报告。已经对Hybrid Now和Hybrid LaterQ算法进行了测试，在Hybrid Now和Hybrid LaterQ列中报告了时间0和状态x=0时的值函数估计。我们还测试了Qknn，并在Qknn列中报告了其结果。请注意，Qknn特别适合于一维控制问题。特别是，由于状态空间的维数为d=1，因此它并不耗时。实际上，它提供了最快的结果，这并不奇怪，因为其他算法需要时间来通过梯度下降法在每个时间步n=0，…，学习最优策略和值函数，N- 1.

22楼

kedemingshi

发表于 2022-6-11 06:41:09

此外，表1显示Qknn是本例中最精确的算法，可能是因为它使用空间中的局部方法来估计Q值表达式中出现的条件期望。表1：使用Y&r、Hybrid Now、Hybrid Later和Qknn算法计算的时间0和状态0 w.r.t.γ的值函数。Bench报告了封闭式公式（3.4）的MC估计值。γY&R Hybrid LaterQ Hybrid Now Qknn Bench1.0-0.402-0.456-0.460-0.461-0.4640.5-0.466-0.495-0.507-0.508-0.5090.1-0.573-0.572-0.579-0.581-0.5860.0-0.620-1.000-1.000-1.000我们在本段末尾给出了不同算法的一些实现细节，作为测试2的一部分：oY&R：算法Y&R仅当使用g.Thefollowing的Lipschitz版本时才收敛使用近似值获得表1中的结果：gN（x）=（g（x）如果x 6∈ [0，N-11-γ]-否则为Nx。o现在混合：我们使用N=40个时间步对[0，T]进行时间离散化。n=0，…，时的值函数和最优控制，N- 1使用具有3个隐藏层和10+5+5个神经元的神经网络进行估计混合LaterQ：我们使用N=40个时间步对[0，T]进行时间离散。n=0时的值函数和最优控制，N- 1是使用包含10+5+5个神经元的3个隐藏层的神经网络进行估计；外部噪声量化51分Qknn：我们使用N=40个时间步对[0，T]进行时间离散化。我们用51个点来量化外部噪声εn~ N（0，1），对于N=0。

23楼

大多数88

发表于 2022-6-11 06:41:12

N并决定使用N（0，1）最优网格的20个点进行状态空间离散化。关于这一半线性偏微分方程问题的结果的主要结论是，与[EHJ17]中先前的结果相比，Hybrid现在可以更好地估计d=100维偏微分方程的解，但需要更多的时间。Hybrid Now和Hybrid Later提供了比[Ric11]中更好的结果来解决维度2中的PDE；但Qknn的表现优于Qknn，可以说Qknn非常准确。3.2一个线性二次随机测试用例我们考虑一个动态为Rd的线性受控过程，根据todXt=（BXt+Cαt）dt+pXj=1DjαtdWjt，（3.5），其中Wj，j=1，p、是独立的实布朗运动，控制过程α∈ Ai值以Rm表示，常数系数B∈ Rd×d、C、Dj∈ Rd×m，j=1，p、线性二次型随机控制问题的值函数isv（t，x）=infα∈AEhZTt（Xt，x，αs.QXt，x，αs+λ|αt |）dt+Xt，x，αt.P Xt，x，αTi，（t，x）∈ [0，T]×Rd，其中Xt，x，α是（3.5）的解，从时间T的x开始，给定一个控制过程α∈ A、 P，Q是非负对称d×d矩阵，λ>0。与此随机控制问题相关的Bellman方程是一个完全非线性的方程vt+x.Qx+infa∈R（Bx+Ca）。Dxv+a|λIm+pXj=1D | jDxvDj一= 0，在[0，T）×Rd上，v（T，x）=x。P x，x∈ 众所周知，参见[YZ99]，显式解由v（t，x）=x.K（t）x，（3.6）给出，其中K（t）是非负对称的d×d矩阵，Riccati方程的解˙K+B | K+KB+Q- KC（λIm+pXj=1D | jKDj）-1C | K=0，K（T）=P，（3.7），而最优反馈控制等于*（t，x）=-λIm+pXj=1D | jK（t）Dj-1C | K（t）x，（t，x）∈ [0，T）×Rd。

24楼

mingdashike22

发表于 2022-6-11 06:41:15

（3.8）我们通过考虑时间离散化（时间steph=T/N）来数值解决该问题，这导致了动态XαN+1=XαN+（BXαN+CαN）h+DαN的离散时间控制问题√hεn+1=：F（Xαn，αn，εn+1），n=0，N- 1，式中（εn）是一系列i.i.d.随机变量，其规律为n（0，1），且成本函数j（α）=E“n-1Xn=0Xαn.QXαn+λ|αn |）h+Xαn.P Xαn#。对于数值试验，我们取m=1，p=d，以及以下参数：T=1，N=20，B=Id，C=1d，Dj=（0，…，1 |{z}第j项，…，0）>，j=1，p、 Q=p=Id，λ=1，其中我们表示1d：=（1，…，1 |{z}d次）>。数值结果我们在维度d=1、10、100中实现了我们的算法，并通过Matlabd求解的Riccati方程（3.7）将我们的解与解析解进行了比较对于d=1，我们绘制了n=0，…，时的最优控制估计，N- 图3中的1和图4中的值函数。观察到，正如预期的那样，estimatedoptimal控制是线性的，估计值函数每次都是二次的对于d=10，我们在表2中报告了v（0，X）的估计值，通过使用估计的最优策略对X进行runningforward模拟计算得出。“Riccati”是通过使用Matlab求解（3.7）计算得出的v（0，X）。我们将初始位置设置为X=1d。我们还在图5中给出了X最佳控制组件的正向模拟。观察NNContPI现在比Hybrid更精确。请注意，算法提供的估计值是有偏差的，这是由于时间离散化造成的对于d=100，我们在表3中报告了价值函数的估计，通过使用估计的最优策略对X进行正向模拟来计算。“Riccati”isv（0，X）通过使用Matlab求解（3.7）计算得出。我们将初始位置设置为X=0.11d和X=0.51d。

25楼

kedemingshi

发表于 2022-6-11 06:41:18

再一次，NNContPI比Hybrid Now更精确，后者提供的估计由于时间离散化而有偏差。实施细节：我们使用分布un：=Nd（0，1）的训练集（n=0，…）实现了Hybrid Now和NNContPI，N- 1、我们表示了时间n，n=0，…，的值函数和最优控制，N-1使用两个具有d+20和d+10神经元的隐藏层，1个神经元作为输出层。我们使用Elu作为隐藏层的激活函数，使用identity作为输出层。dWe用Matlab方法ode45求解（3.7）。-3.-2.-1 0 1 2 3 4x-6.-4.-2024^α时间n=012345678910111213141516171819时的最优决策图3:Hybrid现在在时间n=0时估计的最优决策，N- 我们取d=1，N=20。我们观察到，正如最优控制的闭式公式（3.8）所预期的那样，估计值是线性的。-3.-2.-1 0 1 2 4x05101525303540^v时间n=012345678910111213141516171819时的值函数图4：值函数w.r.t.x，由Hybrid在时间n=0时估算，N- 1、我们得出kd=1，N=20。我们观察到，估计值是二次的，正如给定值函数的闭式公式（3.6）所预期的那样。对算法的评论：Hybrid现在的表现与半线性PDEexample类似，我们可以发表同样的评论。NNContPI现在比Hybrid慢得多，因为数据必须通过N-n-1表示时间n+1，…，的最优控制的神经网络，N-1，为了在时间n.0.0 2.5 5 5.0 7.5 10.0 12.5 15.0 17.5 20.0t0.00.51.01.52.02.53.03.54.0xComponent0123456789 BenchFigure 5:X w.r.t.时间的正向模拟，当X=1和d=10时，使用混合估计进行最佳驱动。前十条曲线代表X的十个分量。

26楼

大多数88

发表于 2022-6-11 06:41:21

当使用策略α=0驱动时，台架曲线表示X的一个相同分量。可以看出，最优控制倾向于降低X的每个分量的范数。表2：通过正向模拟由Hybrid Now和NNContPI估计的最优策略控制的过程，得到的v（0，X）估计值。“Riccati”是通过使用Matlab求解（3.7）计算得出的v（0，X）。我们取d=10，X=1d。在10组10000个模拟中计算平均值和标准偏差。平均stdHybrid Now 56.0 0.6NNContPI 54.3 0.1Riccati 57.1表3：通过正向模拟由Hybrid Now和NNContPI估计的最优策略控制的过程获得的v（0，X）估计。“Riccati”是通过使用Matlab求解（3.7）计算得出的v（0，X）。我们取d=100，初始位置X=0.51d，X=0.11d。在10组10000个模拟中计算平均值和标准偏差。平均stdHybrid Now 5.7 7e-3ncontpi 5.4 7e-3Riccati 5.7案例X=0.11d平均stdHybrid Now 137.1 1.3e-1NNContPI 137.4 1.4e-1Riccati 142.7案例X=0.51d3.3期权hedging我们的第三个示例来自经典的金融对冲问题。我们考虑一个投资者，他用（正）价格过程（Pn）n交易q股，我们用A中的（αn）表示 rq该期间（n，n+1）内这些资产持有的金额。为简单起见，我们假设无风险资产的价格恒定等于1（零利率）。可以方便地将返回过程介绍为：Rn+1=diag（Pn）-1（Pn+1- Pn），n=0，N-1，因此，具有投资组合策略α的投资者的自筹财富过程，从一些资本w开始，由wαn+1=wαn+αn.Rn+1，n=0。

27楼

mingdashike22

发表于 2022-6-11 06:41:24

N- 1，Wα=W。给定一个选项payoffh（PN），代理的目标是最小化其portfoliostrategiesα的预期平方复制错误v=infα∈AEh公司h（PN）- WαNi、在哪里是R上的凸函数。假设返回Rn，n=1，N是i.i.d，我们处于截面1的（q+1）维框架中，Xα=（Wα，P），εN=r，值为E Rq，带动力学函数F（w，p，a，r）=（w+a.rp+diag（p）r，x=（w，p）∈ R×Rq，a∈ Rq，r∈ E、运行成本函数f=0，终端成本g（w，p）=（h（p）- w）。我们在平方损失函数的情况下测试了我们的算法，即。（w） =w，当没有组合约束时，A=Rq，并将我们的数值结果与[BKL01]中导出的显式解进行比较：用ν（dr）表示Rn的分布，用？ν=E[Rn]=Rrν（dr）其平均值，用？M=E[RnR | n]表示假定可逆的分布；然后我们得到vn（w，p）=Knw- 2Zn（p）w+Cn（p），其中函数Kn>0，Zn（p）和Cn（p）在反向归纳中给出，从终端条件Kn=1开始，Zn（p）=h（p），Cn（p）=h（p），对于n=n- 1.0，byKn=Kn+11.- ν| M-1ν,Zn（p）=ZZn+1（p+diag（p）r）ν（dr）- ν| M-1ZZn+1（p+diag（p）r）rν（dr），Cn（p）=ZCn+1（p+diag（p）r）ν（dr）-Kn+1ZZn+1（p+诊断（p）r）rν（dr）|\'M-1.ZZn+1（p+诊断（p）r）rν（dr）,因此V=Kw-2Z（p）w+C（p），其中pis是初始股价。此外，最优投资组合策略由α以反馈形式给出*n=a*n（W）*n、 Pn），其中a*n（w，s）是函数*n（w，p）=？M-1.RZn+1（p+diag（p）r）rν（dr）Kn+1- νw,和W*是与α相关的最佳财富*, i、东、西*n=Wα*n、此外，首字母大写w*使V=V（w，p）最小化，称为（二次）套期保值价格由w给出*=Z（p）K。测试N=6，考虑一项资产q=1，收益率由三项式树建模：ν（dr）=π+δr++π+δ-δr-, π+ π++ π-= 1，r+=5%，r-= -5%, π+= 60%, π-= 30%.

28楼

mingdashike22

发表于 2022-6-11 06:41:28

取p=100，考虑调用选项h（p）=（p- κ） +κ=100。该期权的价格定义为投资组合的初始值，当后者遵循与投资组合初始值相关的最优策略时，该投资组合的初始值可将代理的终端二次损失降至最低。在这个测试中，我们想使用不同的算法来确定通话的价格和相关的最优策略。备注3.1期权套期保值问题是线性二次型的，因此属于代理人对最优控制和价值函数有看法的一类问题。实际上，我们期望这里的最优控制是一个有效的w.r.t.w，而值函数是二次的w.r.t.w。对于这类问题，第2节中提出的算法可以很容易地进行调整，以便估计量的表达式满足ANSATZE。期权对冲问题见（3.9）和（3.10）。2数值结果在图6中，我们绘制了时间0 w.r.t w的值函数，即当代理遵循理论最优策略（基准）和由Hybrid Now或Hybrid LaterQ算法估计的最优策略时，投资组合的初始值。我们使用10000个样本执行正向蒙特卡罗，以近似W00 1 2 3 4 5 6 7 8 9 10 V（t=0，W0=W0）024681012141618200 Hybrid Now Hybrid LaterQoPt的下限。图6：在0 w.r.t.使用Hybrid Now（蓝线）或Hybrid LaterQ（绿色虚线）时的值函数估计。我们用红色绘制值函数以进行比较。可以观察到，所有算法都估计价格为4.5，但混合LaterQ在降低二次风险方面优于混合Now。时间0时的值函数（有关如何通过对偶获得值函数上界近似值的详细信息，请参见[HL17]）。

29楼

可人4

发表于 2022-6-11 06:41:31

我们可以观察到，虽然所有算法的看涨期权价格大约等于4.5，但Hybrid LaterQ显然提供了比Hybrid Now更好的策略来降低终端损失的二次风险。当代理人遵循理论最优策略（红色）或估计最优策略（使用Hybrid Now（蓝色）或Hybrid LaterQ（绿色））时，我们在图7中绘制了投资组合w.r.t时间n的三条不同价值路径。我们为这些模拟设置w=100。关于Hybrid Now和Hybrid LaterQ的评论期权套期保值问题属于线性二次型控制问题，我们期望最优控制为有效的w.r.t.w，值函数为二次的w.r.t.w。因此，自然要考虑以下控制类别和函数，以便在n=0时适当逼近最优控制和值函数， . . . , N-1：上午：=（w，p）7→ A（x；β）·1，w|; β ∈ 卢比, （3.9）FM：=（w，p）7→ Φ（x；θ）·1，w，w|; θ ∈ 卢比, （3.10）其中β描述与神经网络Aa相关的参数（权重+偏差），θ描述与神经网络Φ相关的参数。符号|表示运输，而·表示内积。请注意，A的输出层（分别为Φ）中有2个（分别为3个）神经元，因此内积在（3.10）和（3.9）中有明确定义。Hybrid NowHybrid LaterQFigure 7：三次模拟代理人的财富w.r.t.时间n，对于每个ω，后者遵循理论最优策略（红色），使用Hybrid Now估计的策略（蓝色）和使用Hybrid LaterQ的策略（绿色）。我们取w=100。观察到当agent使用Hybrid LaterQ或Hybrid Now遵循估计的最优策略时，该过程的驱动与最优控制过程类似。3.4储能评估我们提出了【CL10】中研究的储能评估问题的离散时间版本。

30楼

nandehutu2022

发表于 2022-6-11 06:41:34

我们考虑必须储存在洞穴中的商品（天然气），例如盐丘或石窟。随着时间和市场条件的发展，这样一个洞穴的管理者旨在通过在有限的范围内优化注气或抽气的动态决策来最大化实物期权价值。我们用（Pn）表示天然气价格，这是一个由以下均值回归过程建模的外生实值马尔科夫过程：Pn+1=(R)p（1- β） +βPn+ξn+1，（3.11），其中β<1，(R)p>0是天然气价格的固定值。储气库中的当前库存量用（Cαn）表示，并取决于管理者的决策，由控制过程α=（αn）表示，值为{-1，0，1}：αn=1（分别为。-1）指以注入（或抽出）速率ain（Cαn）（或aout（Cαn））注入（或抽出）气体，需要（或导致）购买（或出售）bin（Cαn）≥ ain（Cαn）（分别为Cαn）≤ aout（Cαn）），αn=0表示她什么也没做。binandain（分别为boutand和aout）之间的差异表明在注入/提取过程中气体损失。库存的演变由Cαn+1=Cαn+h（Cαn，αn），n=0，N- 1，Cα=C，（3.12），其中我们设定（C，a）=a=0时，a=10时的ain（c）-a的aout（c）=-1，我们有实际库存约束：Cαn∈ [Cmin，Cmax]，n=0，N、管理器在时间N的运行增益为f（Pn，CαN，αt），由f（p，C，a）给出=-料仓（c）p- K（c）表示a=1-K（c）对于a=0关于（c）p- K-1（c）表示a=-1，Ki（c）表示每个状态i=-1, 0, 1. 然后，管理者的问题是最大化α以上的预期总利润j（α）=E“N-1Xn=0f（Pn，Cαn，αn）+g（Pn，Cαn）#，（3.13），其中终端条件的常见选择为g（p，C）=-up（c- c） +，这会因天然气比原来少而受到惩罚，并使此惩罚与当前天然气价格成比例（u>0）。

[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群