上随机控制问题的深层神经网络算法 - 第2页 - 外文文献专区

11楼

发表于 2022-6-11 06:40:36

，0 dor用参数为βn的神经网络表示时间n的离散控制：an（x）=a`n（x），其中n（x）∈ argmax`=1，。。。，Lp`（x；βn），并计算最佳参数：^βn∈ argminβ∈RqE“LX`=1p`（Xn；β）f（Xn，a`）+N-1Xk=n+1fX\'k，^ak（X\'k）+ g（X\'N）#,（2.2）其中Xn~ unon Rd，X\'n+1=F（Xn，a\'，εn+1），X\'k+1=F（X\'k，^ak（X\'k），εk+1），对于k=n+1，N- 1和 = 1.L设置^an（.）=a^\'n（.）带^n（x）∈ argmax`=1，。。。，Lp`（x；^βn）； ^anis时间最优策略的估计注意，当使用算法1和2时，时间n的最优策略的估计高度依赖于时间n+1的最优策略的估计，N-1，之前已经计算过。特别是，想要使用算法1和2的实践者需要跟踪在时间n+1，N-1为了计算时间n时最优策略的估计值。注释2.5在实践中，对于n=n- 1.0时，应通过随机梯度下降最小化期望值（2.1）和（2.2），其中，通过在时间n的初始位置的u下绘制独立样本，以及在εk下绘制独立样本，对于k=n+1，…，生成有限数量的路径（Xβk）Nk=n+1的小批次，N、在[Hur+18]中，根据神经网络对最优控制的误差逼近，以及根据随机梯度下降方法的估计误差，分析了算法1和2的收敛性，见其定理4.7。

12楼

能者818

发表于 2022-6-11 06:40:39

22.2双DNNW控制和值函数学习本节介绍了两种算法，与算法1或2相比，这两种算法只跟踪时间n+1时值函数和最优控制的估计，以便在时间n建立值函数和最优控制的估计。2.2.1立即回归（立即混合）算法3，判定为立即混合，将神经网络（neuralnetworks）的最优策略估计与动态规划原理相结合，并依赖于价值和性能迭代之间的混合过程。算法3：混合NowInput：训练分布（un）n-1n=0；输出：–最优策略估计（^an）N-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.0文件：^βn∈ argminβ∈RqEhfXn，A（Xn；β）+^Vn+1（Xβn+1）i（2.3），其中Xn~ u，Xβn+1=FXn，A（Xn；β）, εn+1）；设置^an=A（；^βn）； ^anis是时间nCompute^θn时最优策略的估计∈ argminθ∈RpE（f（Xn，^an（Xn））+^Vn+1（X^βnn+1）- Φ（Xn；θ）. （2.4）设^Vn=Φ（；^θn）；^Vnis是在NRECRK 2.6时对值函数的估计。我们可以结合算法1、2和3的不同特征来解决特定问题，例如在第3.5节中，我们设计了算法6来解决智能电网管理问题。22.2.2后回归和量化（混合LaterQ）算法4，称为混合LaterQ，将后回归和量化方法相结合，以构建值函数的估计值。算法4背后的主要思想是通过一组基函数对时间n+1处的值函数进行插值，这是基于回归的后期算法的精神，然后使用量化对时间n处的插值进行回归。通常的后回归方法要求能够计算封闭形式的条件期望，这限制了可以考虑的随机动力学和回归基础。

13楼

大多数88

发表于 2022-6-11 06:40:42

量化的使用避免了这一限制，使Theresess-later算法更具普遍适用性。让我们首先回顾一下量化的基本成分。我们用Rd值随机变量εn+1的^εa K-quantizerof表示~ ε（通常为高斯随机变量），即网格上的离散随机变量Γ={e，…，eK} （Rd）Kde定义为ε=项目ε：=KX`=1e`ε∈C`（Γ），其中C（Γ）。，CK（Γ）是Γ的Voronoi细分，即满足C`（Γ）的欧氏空间（Rd，|.|）的Borel划分氖∈ Rd：| e- e ` |=minj=1，。。。，K | e- ej | o.^ε的离散定律的特征是^p`:=p[^ε=e`]=p[ε∈ C`（Γ）]， = 1.K、使L量化误差Kε最小的网格点（e `）-εklead是所谓的最佳K量化器，可以通过随机梯度下降法、knownas-Kohonen算法或竞争学习矢量量化（CLVQ）算法获得，该算法还提供了相关权重（^p`）估计的副产品。我们参考[PPP04]了解该算法的描述，并提到对于正态分布，最佳网格和Voronoi拟合的权重是在网站上预先计算的http://www.quantize.maths-fi.com.Algorithm4：混合侧向输入：–训练分布（un）n-1n=0；–Rd中K点的网格{e，…，eK}，权重为p，pk表示噪声的量化εn；输出：–最优策略估计（^an）N-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.

14楼

大多数88

发表于 2022-6-11 06:40:45

，0文件：^βn∈ argminβ∈RqEhfXn，A（Xn；β）+^Vn+1（Xβn+1）i（2.5），其中Xn~ un，Xβn+1=FXn，A（Xn；β）, εn+1）；设置^an=A（；^βn）； ^anis是时间nCompute^θn+1时最优策略的估计∈ argminθ∈RpE^Vn+1（X^βnn+1）- Φ（Xn+1；θ）（2.6）并设置▄Vn+1=Φ（.；θn+1）；在时间n+1Set^Vn（x）=f（x，^an（x））+KX`=1p`~Vn+1时的插值F（x，^an（x），e`）;^Vnis在算法4中主要使用量化时间n时的值函数的估计来有效地逼近期望值：回顾动力学（1.1），任何函数的条件期望算子W等等式toP^aMn（x）W（x）=eW（X^aMnn+1）| Xn=X= EW（F（x，^aMn（x），ε））, x个∈ Rd，我们将通过量化来近似分析：bP^aMn（x）W（x）：=EW（F（x，^aMn（x），^ε））=KX`=1^p`WF（x，^aMn（x），e`）.观察到（2.6）的解实际上提供了一个神经网络Φ（；^θn+1），它插值了^Vn+1。因此，算法4包含一个插值步骤，而且，可以选择任何类型的距离作为损失来计算^θn+1。在（2.6）中，我们决定采用L损失，主要是因为它在我们的应用中效果最好。备注2.7（量化）在维度1中，我们使用k=21点的最佳网格和权重，量化约化和中心正态律N（0，1）；并用100个点量化维度2中的约化和中心法向定律，即N（0，1）。d维法向律最佳量化的所有网格和权重可在中获得http://www.quantize.maths-fi.com对于d=1，100.22.2.3算法3和4的一些备注正如备注2.5中所述，我们在算法3和4中的伪代码中所写的所有期望值应使用有限的训练集通过经验平均值进行近似。

15楼

mingdashike22

发表于 2022-6-11 06:40:48

这些算法的收敛性已在[Hur+18]中根据神经网络的最优控制和值函数的逼近误差、基于随机梯度下降法的估计误差以及量化误差进行了分析（关于算法4，请参见其定理4.14和4.19）。算法3或4非常适合在通常情况下使用，其中值函数和时间n的最优控制非常接近值函数和时间n+1的最优控制，例如，当值函数和最优控制近似于连续时间值函数和非最优控制的时间离散化时。在这种情况下，建议遵循以下两步程序：（i）将时间n时值函数和最优控制的神经网络近似参数（即权重和偏差）初始化为时间n+1时值函数和最优控制的神经网络近似参数。（ii）对于Adam优化器，取一个非常小的学习速率参数，以保证基于梯度下降的学习过程中参数更新的稳定性。这样，就可以得到值函数和最优控制的稳定估计，这是可设计的。我们强调了这样一个事实，即这种稳定性程序在这里是适用的，因为随机梯度下降法得益于对待优化参数的良好初始猜测。

16楼

nandehutu2022

发表于 2022-6-11 06:40:51

与文献中提出的替代方法（如经典多项式回归）相比，这是一个优势。2.3用k-最近邻量化（Qknn算法）算法5给出了基于量化和k-最近邻方法的算法的伪码，称为Qknn，它将是所有低维控制问题的基准，将在第3节中考虑，以测试NNContPI、ClassifPI、Hybrid Now和Hybrid Later。此外，算法5与其他众所周知的低维控制问题的算法在[Bal+19]中进行了比较，这特别表明算法5在解决低维控制问题方面非常有效。实际上，在我们的实验中，只要问题的维数足够低，使得算法5可行，算法5总是优于基于立即回归或稍后回归方法的其他算法。如第2.2.2节所述，我们考虑噪声εn的K-最优量化器，即在e中K个点的网格{e，…，eK}中取值的adiscrete随机变量^ε，并具有权重p，主键。我们还考虑了网格Γn，n=0，Rd中的N个点，该区域应适当覆盖最佳驱动过程X在N=0时可能访问的Rd区域，N-1、这些网格可被视为精心选择的培训分布样本，其中在可能被最优驱动控制过程访问的区域内取更多点（有关培训措施选择的详细信息，请参见备注2.1）。算法5：QKNInput：–GridsΓk，k=0，Rd中的N；–e中K点的网格{e，…，eK}，权重为p，pk对于εnOutput的量化：–最优策略（^an）N的估计-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.

17楼

nandehutu2022

发表于 2022-6-11 06:40:54

，0 doCompute for（z，a）∈ Γn×A，^Qn（z，A）=f（z，A）+KX`=1p` bVn+1项目编号+1F（z，a，e`）, （2.7）其中ProjΓn+1是Γn+1上的欧几里德投影；^Qnis近似的Q值cat time n计算时间n^An（z）的最优控制∈ 阿格米纳∈A.^Qn（z，a）, z∈ Γn；(2.8) 此步骤使用确定性函数的经典优化算法SetBvn（z）=^Qnz、 ^安（z）, z∈ Γn；bVnis通过量化价值函数进行估计。时间n的Q值（用Qn表示）定义为以耦合状态动作（x，a）为参数的函数，并返回从时间n到时间n的预期最佳回报，当进程x处于状态x且动作a在时间n选择时；i、 e.Qn:Rd×Rq∈（x，a）7→ f（x，a）+Ean，x[Vn+1（Xn+1）]。备注2.8（2.7）给出的时间n处Q值的估计值与控制变量a不是连续的，这可能会导致运行Qknn时出现一些稳定性问题，尤其是在优化过程中（2.8）。我们参考第3.2.2节。在[Bal+19]中，详细介绍了算法5的扩展，其中Q值函数qn的估计是连续的w.r.t.控制变量。23数值应用在本节中，我们通过不同的示例测试第2节中提出的基于神经网络的算法。在高维方面，我们首先采用了[EHJ17]中已经考虑过的相同示例，以便我们可以直接将我们的结果与他们的结果进行比较，并从线性二次型控制问题中选取另一个示例，其显式解析解作为参考值。

18楼

kedemingshi

发表于 2022-6-11 06:40:57

在低维方面，我们将我们的算法的结果与Qknn提供的结果进行了比较，Qknn作为低维控制问题的优秀基准已在第2节中介绍。3.1半线性PDE我们考虑以下梯度二次增长的半线性PDE：vt+十五- |Dxv |=0，（t，x）∈ [0，T）×Rd，v（T，x）=g（x），x∈ Rd.（3.1），通过观察任何p∈ Rd，-| p |=infa∈Rd[| a |+2a.p]，PDE（3.1）可以写成Hamilton-Jacobi-Bellman方程vt+xv+infa∈研发部|a |+2a。Dxv]=0，（t，x）∈ [0，T）×Rd，v（T，x）=g（x），x∈ Rd，（3.2）因此与随机控制问题v（t，x）=infα相关∈AEZTt |αs | ds+g（Xt，x，αT）, （3.3）其中X=Xt，X，α是由dxs=2αsds控制的受控过程+√2dWs，t≤ s≤ T、 Xt=x，W是d维布朗运动，控制过程α的值为a=Rd。控制问题（3.3）的时间离散化（时间步长h=T/N）导致离散时间控制问题（1.1）-（1.2）-（1.3），其中xαN+1=xαN+2αnh+√2hεn+1=：F（Xαn，αn，εn+1），n=0，N- 1，式中（εn）是一系列i.i.d.随机变量，其规律为n（0，Id），且成本函数j（α）=E“n-1Xn=0h |αn |+g（Xαn）#。另一方面，众所周知，（3.1）（或相当于（3.2））的显式解可以通过Hopf-Cole变换获得（参见例如[CR16]），并由v（t，x）=-自然对数进出口商品- g（x+√2重量-t）我, （t，x）∈ [0，T]×Rd.（3.4）我们选择在文献中已经考虑过的两个不同示例上进行测试：测试1在[EHJ17]中获得了一些最新的数值结果（参见[EHJ17]中的第4.3节），当T=1且g（x）=ln（（1+| x |）），维度d=100（参见[EHJ17]中的表2和图3]）。

19楼

大多数88

发表于 2022-6-11 06:41:00

他们的方法基于神经网络回归来解决与PDE（3.1）相关的BSDE表示，并为系数γ的不同值提供时间0和状态0的值函数估计。我们在图1中绘制了混合Now算法的结果。使用4核3GHz intel Core i7 CPU，Hybrid现在需要一个小时的时间才能达到0.11%的相对误差。我们想强调一个事实，【EHJ17】中提出的算法只需要330秒就能提供0.17%的相对误差。然而，根据我们的经验，使用他们的算法很难将相对误差从0.17%减少到0.11%。同时，我们相信我们的算法可以很容易地减少计算时间；第4节讨论了这方面的一些想法。可以使用的主要技巧是迁移学习（在文献中也称为预训练）：我们依赖于值函数的连续性和最优控制。r、 t.是时候声明n时刻的值函数和最优控制与n+1时刻的值函数和最优控制非常接近了。因此，可以使用步骤n+1估计的最优值来初始化时间n的值函数和最优控制的权重，降低优化器算法的学习率，并减少梯度下降算法的步骤数。所有这些过程确实加快了值函数和最优控制的学习，并确保了估计的稳定性。这样，我们可以将计算时间从一小时减少到二十分钟。我们还考虑了维度d=2中的相同问题，为此，我们绘制了X w.r.t的FirstComponent。

20楼

大多数88

发表于 2022-6-11 06:41:03

时间在图2中，对于五条不同的布朗运动路径，其中对于每个ω，代理遵循朴素（α=0）或混合现在策略。可以看出，当终端时间较远时，两种策略非常相似；但Hybrid Now策略显然迫使X在终端时间接近时接近0，以降低终端成本。让我们提供测试1中提出的算法的进一步实现细节：o正如人们可以从（3.3）中v的表示中猜测的那样，驱动进程X大约为0可能是最佳的。因此，我们决定在时间n采用un：=（nTN）1/2（0，Id）作为培训措施，以学习时间n的最佳策略和值函数，对于n=0，N- 1.o我们用1、2和3层对算法进行了测试，以通过神经网络表示值函数和最优控制，并注意到当使用多个层时，估计的质量显著提高，但当考虑3个以上层时，估计的质量变化不大。图1:Hybrid Now估计值函数在时间0 w.r.t的相对误差用于构建最优策略Hybrid Now估计值的小批量数量。按照混合Now算法估计的最优策略，在样本大小为10000的情况下，对价值函数进行了三次正向蒙特卡罗计算。0.0 0.2 0.4 0.6 0.8 1.0t1.00.50.00.51.01.52.0X\\u 1optbenchFigure 2:X w.r.t.时间的第一个分量的五个正向模拟，当代理遵循Hybrid Now（选择蓝色）和naive strategyα=0（benchin红色）估计的最佳策略时。我们考虑维度d=2的问题。请注意，最佳策略（由Hybrid Now估计）是在终端时间较远时不采取任何行动，以避免任何运行成本，即。

[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群