上随机控制问题的深层神经网络算法 - 外文文献专区

0关注
2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

0%

威望: 10 级
论坛币: 15 个
通用积分: 49.1643
学术水平: 0 点
热心指数: 1 点
信用等级: 0 点
经验: 24465 点
帖子: 4070
精华: 0
在线时间: 0 小时
注册时间: 2022-2-24
最后登录: 2022-4-15

楼主

可人4

发表于 2022-6-11 06:40:01 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

英文标题：
《Deep neural networks algorithms for stochastic control problems on
finite horizon: numerical applications》
---
作者：
Achref Bachouch, C\\^ome Hur\\\'e, Nicolas Langren\\\'e, Huyen Pham
---
最新提交年份：
2020
---
英文摘要：
This paper presents several numerical applications of deep learning-based algorithms that have been introduced in [HPBL18]. Numerical and comparative tests using TensorFlow illustrate the performance of our different algorithms, namely control learning by performance iteration (algorithms NNcontPI and ClassifPI), control learning by hybrid iteration (algorithms Hybrid-Now and Hybrid-LaterQ), on the 100-dimensional nonlinear PDEs examples from [EHJ17] and on quadratic backward stochastic differential equations as in [CR16]. We also performed tests on low-dimension control problems such as an option hedging problem in finance, as well as energy storage problems arising in the valuation of gas storage and in microgrid management. Numerical results and comparisons to quantization-type algorithms Qknn, as an efficient algorithm to numerically solve low-dimensional control problems, are also provided; and some corresponding codes are available on https://github.com/comeh/.
---
中文摘要：
本文介绍了[HPBL18]中介绍的基于深度学习的算法的几个数值应用。使用TensorFlow进行的数值和对比测试说明了我们不同算法的性能，即通过性能迭代进行控制学习（算法NNcontPI和ClassifPI），通过混合迭代进行控制学习（算法hybrid Now和hybrid LaterQ），关于[EHJ17]中的100维非线性偏微分方程示例和[CR16]中的二次倒向随机微分方程。我们还对低维控制问题进行了测试，如金融中的期权对冲问题，以及储气库估值和微电网管理中出现的储能问题。给出了数值结果，并与数值求解低维控制问题的有效算法Qknn进行了比较；上提供了一些相应的代码https://github.com/comeh/.
---
分类信息：

一级分类：Mathematics 数学
二级分类：Optimization and Control 优化与控制
分类描述：Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学，线性规划，控制论，系统论，最优控制，博弈论
--
一级分类：Mathematics 数学
二级分类：Probability 概率
分类描述：Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用：例如中心极限定理，大偏差，随机微分方程，统计力学模型，排队论
--
一级分类：Quantitative Finance 数量金融学
二级分类：Computational Finance 计算金融学
分类描述：Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法，包括蒙特卡罗，偏微分方程，格子和其他数值方法，并应用于金融建模
--
一级分类：Statistics 统计学
二级分类：Machine Learning 机器学习
分类描述：Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文（监督，无监督，半监督学习，图形模型，强化学习，强盗，高维推理等）与统计或理论基础
--

---
PDF下载：
-->

Deep_neural_networks_algorithms_for_stochastic_control_problems_on_finite_horizo.pdf (3.61 MB)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：控制问题随机控制神经网络神经网 Applications

相关帖子

沙发

mingdashike22

发表于 2022-6-11 06:40:07

有限时域随机控制问题的深层神经网络算法：数值应用*Achref Bachouch+C^ome Hur'e'Nicolas Langren'e§Huy^en PhamP2020年1月28日摘要本文介绍了基于深度学习的算法在有限时间范围内离散随机控制问题中的若干数值应用，这些算法已在[Hur+18]中介绍。使用TensorFlow进行的数值和对比测试展示了我们不同算法的性能，即通过性能化（算法NNcontPI和ClassifPI）进行控制学习，通过混合迭代进行控制学习（算法hybrid Now和hybrid LaterQ），关于[EHJ17]中的100维非线性PDE样本和[CR16]中的二次倒向随机微分方程。我们还对低维控制问题进行了测试，如金融中的期权套期保值问题，以及储气库估值和微电网管理中产生的储能问题。给出了数值结果，并与量化型算法Qknn进行了比较，Qknn是数值求解低维控制问题的有效算法。关键词：深度学习、策略学习、性能迭代、价值迭代、蒙特卡罗、量化。*我们感谢两位裁判的有益评论和评论。+挪威奥斯陆大学数学系。

藤椅

何人来此

发表于 2022-6-11 06:40:10

作者的研究是在挪威研究委员会的支持下进行的，研究项目为随机控制、信息和应用的挑战（STOCONINF），项目编号250768/F20，math achrefb。uio。不，LPSM，巴黎大学，LPSM的狄德罗·休尔。巴黎§CSIRO Data61，澳大利亚风险实验室Nicolas。Langrene位于data61。csiro。auPLPSM，巴黎迪德罗大学和CREST-ENSAE，lspm的pham。巴黎本文作者的工作得到了ANR项目CAESARS（ANR-15-CE05-0024）以及FiME和“金融与可持续发展”EDF-CACIB主席的支持。本文致力于有限时间内离散时间随机控制问题的数值解。受控状态过程的动力学X=（Xn）n值由Xn+1=F（Xn，αn，εn+1），n=0，N- 1，X=X∈ Rd，（1.1），其中（εn）是在某些Borel空间（E，B（E））中取值的i.i.d.随机变量序列，并在某些概率空间中定义(Ohm, F、 P）配备由噪声（εn）n（平凡σ-代数）产生的过滤F=（Fn）n，控制α=（αn）nis anF自适应过程值为 Rq，F是从Rd×Rq×Einto到Rd的一个可测函数，该函数是agent已知的。给定Rd×RQ上定义的运行成本函数和Rd上定义的终端成本函数，与控制过程相关的成本函数αisJ（α）=E“N-1Xn=0f（Xn，αn）+g（Xn）#。（1.2）在此框架中，我们假设代理知道f和g。可容许控制集A是一组满足某些可积条件的控制过程α，确保成本函数J（α）定义明确。控制问题，也称为马尔科夫决策过程（MDP），由asV（x）：=infα表示∈AJ（α），（1.3），目标是找到最优控制α*∈ A、即，达到最佳值：V（x）=J（α*).

板凳

能者818

发表于 2022-6-11 06:40:14

请注意，问题（1.1）-（1.3）也可以被视为连续时间随机控制问题的时间离散化，在这种情况下，F通常是受控扩散过程的Euler模式。众所周知，全局动态优化问题（1.3）可以通过动态规划（DP）方法简化为局部优化问题，该方法允许通过Vn（x）=g（x），x在向后递归中确定值函数∈ Rd，Vn（x）=infa∈AQn（x，a），（1.4），其中Qn（x，a）=f（x，a）+EVn+1（Xn+1）Xn=x，αn=a, （x，a）∈ Rd×A.此外，当在任何时间n通过A在DP公式（1.4）中达到最大值时*n（x）∈ 阿尔格米纳∈AQn（x，a），我们得到反馈形式的最优控制（策略），由α给出*=（a）*n（X*n））n此处X*马尔可夫过程是否由x定义*n+1=F（X*n、 a*n（X*n），εn+1），n=0，N- 1，X*= x、当状态空间维数d和控制空间维数较高时，DP公式的实际实现可能会避免维数灾难和较大的复杂性。在[Hur+18]中，我们提出了依赖深度神经网络的算法，用于逼近/学习最优策略，然后最终通过性能/策略迭代或与蒙特卡罗回归的混合迭代来逼近/学习值函数。这项研究产生了三种算法，即第2节回顾的NNcontPI算法、Hybrid Now算法和Hybrid LaterQ算法，它们可以看作是平稳随机问题强化学习社区（[SB98]）中开发的演员批评方法的自然扩展，用于确定水平控制问题。请注意，对于平稳控制问题，通常使用时间差异学习等技术来改进后者的学习，这取决于值函数和最优控制不依赖于时间这一事实。此类技术不适用于有限水平控制问题。

报纸

nandehutu2022

发表于 2022-6-11 06:40:18

在第3节中，我们对[EHJ17]中的100维非线性偏微分方程和[CR16]中的二次倒向随机微分方程以及高维线性二次随机控制问题进行了一些数值和比较测试，以说明我们的不同算法的效率。我们给出了金融中期权对冲问题的数值结果，以及天然气储存估值和微电网管理中出现的储能问题。文中给出了数值结果，并与本文介绍的量化型算法Qknn进行了比较，Qknn是数值求解低维控制问题的一种有效算法。最后，我们在第4节中总结了一些关于我们算法可能的扩展和改进的评论。2算法本节介绍四种基于神经网络的算法，用于解决离散时间随机控制问题（1.1）-（1.3）。这些算法的收敛性已在我们的配套论文[Hur+18]中进行了详细分析，出于独立的目的，本节将介绍这些算法的描述和收敛结果。在本节末尾，我们还介绍了一种基于量化和k-最近邻的算法（Qknn），该算法将作为在低维控制问题上测试我们算法的基准。给出了一类用参数函数x表示的控制策略的深层神经网络（DNN）∈ Rd7→ A（x；β）∈ A、带参数β∈ Rq和一类由参数函数表示的值函数的ofDNN:x∈ Rd7→ Φ（x；θ）∈ R、带参数θ∈ 卢比。

地板

可人4

发表于 2022-6-11 06:40:20

回想一下，这些DNN函数A和Φ是线性组合和非线性激活函数的组合，参见【GBC16】。此外，我们将在状态间隔上获得一系列概率度量，我们称之为训练度量，并表示为（un）n-1n=0，应将其视为数据集提供者，以在n=0时学习最佳策略和值函数，N- 备注2.1（训练集设计）训练集的选择对数值效率至关重要。强化学习社区对这个问题进行了大量的研究，尤其是使用多臂bandits算法[ACBF02]，最近在数值概率文献中，参见[LM19]，但仍然是一个具有挑战性的问题。这里，考虑了两种情况来选择用于生成训练集的训练度量u，在该训练集上将计算时间n的估计值。第一种是基于知识的选择，当控制员以一定程度的信心知道为了优化其成本函数，必须推动流程时，这一选择是相关的。

7楼

可人4

发表于 2022-6-11 06:40:23

第二种情况是，当控制器不知道在何处或如何推动流程以优化成本函数时。（1）仅利用策略在基于知识的环境中，不需要对状态空间进行详尽而昂贵的（主要是时间上的）探索，控制器可以采取培训措施，在状态空间区域中分配更多的点，这些点可能会被优化驱动的过程访问。在实践中，在时间n，假设我们知道最优过程可能位于区域D中，我们选择一个训练度量，其中密度将大量权重分配给D点，例如U（D），D中的均匀分布。（2）首先探索，然后在控制器不知道在何处或如何驱动过程以优化成本函数时利用，我们建议将培训措施构建为过程的经验措施，由使用替代方法计算的最优控制估计驱动。（i）首先探索：使用另一种方法获得最佳策略的良好估计。在高维情况下：例如，可以考虑使用神经网络随时逼近控制，并通过对函数J（θ，…，θN+1）：=E“N进行全局优化来获得最佳控制的良好估计-1Xn=0f（Xn，A（Xn；θn））+g（Xn）#，其中X是在时间n时由反馈控制A（；θn）控制的过程。（ii）以后利用：采取培训措施un：=PXn，对于n=0，N- 1，其中X是使用步骤（i）中估计的最优控制驱动的；并应用程序（1）。

8楼

kedemingshi

发表于 2022-6-11 06:40:27

最近在[KPX18]中利用了Suchan思想。备注2.2（神经网络的选择）除非另有规定，否则我们使用具有两个或三个隐藏层和每个隐藏层d+10个神经元的前馈神经网络，因为我们从经验上注意到，这些参数足以近似此处考虑的相对平滑的目标函数。我们尝试了sigmoid、tanh、ReLU和andELU激活函数，并注意到在我们的应用程序中，ELU通常是提供最佳结果的函数。我们对每个神经网络的输入数据进行归一化，以加快后者的训练速度。2标记2.3（神经网络训练）我们使用在TensorFlow中实现的Adam优化器，初始学习率设置为0.001或0.005，这是TensorFlow中的默认值，通过梯度下降来训练最优策略和后面描述的算法中定义的值函数。当优化函数是对TensorFlow函数的期望值时，TensorFlow通过自动微分来处理Adamgradient下降过程，如通常的可微分激活函数sin、log、exp，但也有流行的不可微分激活函数，如ReLu:x 7→ 最大值（0，x）。为了使神经元的权重和偏差保持较小，我们使用了参数主要设置为0.01的L正则化，但该值可以更改，以确保正则化项在训练神经网络时加上损失时既不太强也不太弱。我们考虑有足够多的64或128大小的小批次用于培训，这基本上取决于问题的维度。我们至少使用10epochSA，当在大小为100的验证集上计算的损失增加时，停止训练。我们注意到，使用多个历元确实可以提高评估的质量。

9楼

何人来此

发表于 2022-6-11 06:40:30

2标记2.4（约束）所提出的算法可以在任何时候处理状态和控制约束，这在多个应用中很有用：（Xαn，αn）∈ S a.S.，n∈ N、其中S是Rd×Rq的某个给定子集。在这种情况下，为了确保允许的控件集不为空，我们假设setsA（x）：=na∈ Rq：（F（x，a，ε），a）∈ 所有x的S a.S.oare非空∈ S、现在DP公式的读数为svn（x）=infa∈A（x）f（x，a）+PaVn+1（x）, x个∈ S、从计算角度来看，处理无约束状态/控制变量可能更方便，因此，通过放松状态/控制约束，并在运行成本中引入惩罚函数L（x，a）：f（x，a）← f（x，a）+L（x，a）和g（x）←g（x）+L（x，a）。例如，如果约束集S的形式为：S={（x，a）∈ Rd×Rq:hk（x，a）=0，k=1，p、香港（x，a）≥ 0，k=p+1，q} ，对于某些函数hk，则可以将其视为惩罚函数：L（x，a）=pXk=1uk | hk（x，a）|+qXk=p+1ukmax（0，-香港（x，a））。其中uk>0是惩罚系数（实际中较大）。22.1通过性能迭代进行控制学习我们在本节中介绍了算法1，它结合了神经网络的最优策略估计和动态规划原理。我们依赖于性能操作过程，即路径总是重新计算到最终时间N.aWe，由完整训练集的历元一次通过表示。2.1.1算法NNContPI我们的第一个算法，简称NNContPI，是针对具有连续控制空间的控制问题而设计的，例如Rqor Rq中的一个球。其主要思想是：1。表示时间n=0时的控件，N-1通过神经网络，其中输出层的激活函数取控制空间中的值。

10楼

大多数88

发表于 2022-6-11 06:40:33

例如，如果控制空间是Rq，则可以将标识函数作为输出层的激活函数；如果控制空间为[0，1]，则使用sigmod函数。2、按时间顺序向后学习最优控制的最优参数^β。特别要注意的是，时间n的最优控制的学习高度依赖于时间k=n+1时最优控制估计的准确性，N-1，之前计算过。算法1：NNContPIInput：训练分布（un）n-1n=0；输出：最优策略估计（^an）N-1n=0；对于n=n-1.0 doCompute^βn∈ argminβ∈RqE“fXn，A（Xn；β）+N-1Xk=n+1fXβk，^akXβk+ g级XβN#（2.1）其中Xn~ unand，其中XβkNk=n+1通过归纳法定义为：（Xβn+1=FXn，AXn；β, εn+1Xβk+1=FXβk，^akXβk, εk+1, 对于k=n+1，N- 1、设置^an=A（；^βn）。 ^anis是在控制空间A有限的特殊情况下，在时间n2.1.2算法ClassififPii的最优策略的估计，即Card（A）=L<∞ 对于A={A，…，aL}，可以使用分类方法：考虑以状态x为输入并返回概率向量p（x；β）=（p`（x；β））L`=1和参数β的DNN。可以使用具有ReLu激活功能的k个隐藏层、具有L个神经元的输出层和用于输出层的Softmaxbactivation函数来构建这样的ausual DNN。下面介绍的算法2就是基于这个想法，被称为Classifipi。b Softmax功能定义如下：x 7→eβxPLk=1eβkx，eβxPLk=1eβkx其中β，β是将通过梯度下降学习的部分参数。算法2：ClassifiInput：训练分布（un）n-1n=0；输出：最优策略估计（^an）N-1n=0，概率pl（.；βn）；对于n=n-1.

[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群