[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

41楼

nandehutu2022

发表于 2022-6-11 06:42:07

，50}，ΓnR：=ρnR+σ1-ρn1-ρΓ，其中Γ是N（0，1）量化的最佳网格，可在http://www.quantize.maths-fi.com，得51分。C组分的训练点选择与Remark2.1中讨论的勘探程序相对应，而我们为（非受控）R组分选择了具有51个点的最佳网格。对ClassifHybrid的评论：我们用100个300大小的小批次和100个时代来运行该算法。我们在时间n选择了以下训练分布：un=U（Cmin，Cmax）×U（{0，1}）×PRn，其中PRn是时间tn的（非受控）剩余需求定律。注意，这种训练分布的选择意味着我们想要探索受控过程（C，M，R）受控组件的所有可用状态，以便全局学习最优策略。由于控制空间{0}，微电网管理问题对我们的算法来说非常具有挑战性∪ 【amin，amax】是离散和连续空间的混合体，而且最优控制的选择受到约束。我们设计了ClassifHybrid，ClassifPI的一个混合版本，来解决这个问题。ClassififHybrid提供了非常好的估计，实际上表现比Qknn更好。4讨论和结论我们提出的算法设计良好，能够准确估计与各种高维控制问题相关的最优控制和值函数。此外，当在低维问题上进行测试时，他们的表现与基于蒙特卡罗basedor量化的方法一样好，这表明了他们在低维方面的效率，参见[Bal+19]和[Ala+19]。由于2（N）的昂贵训练，所提出的算法具有相当高的时间消耗成本- 1）在n=0，…，时学习值函数和最优控制的神经网络，N-然而，代理可以轻松地减少计算时间。

42楼

可人4

发表于 2022-6-11 06:42:10

第一个技巧是通过部分或全部忽略动态规划原理（DPP）来减少神经网络的数量，如【EHJ17】中所述。也可以考虑使用一个唯一的递归神经网络（RNN）（在完全忽略DPPI的情况下）或其中的几个（在部分忽略的情况下）来学习最优控制，要么全部同时学习（第一种情况），要么以向后的方式分组学习（第二种情况）。我们参考【WNMW19】了解这种精神下的算法。另一个技巧是在时间n=0，…，更快地学习值函数和最优控制，N-1通过对神经网络进行预训练。按照该方向进行的方法是在时间n将值函数估值器^Vn的权重和偏差初始化为^Vn+1中的一个。然后，我们依靠值函数w.r.t.的连续性，即时间n，期望权重从时间n到n+1不会有太大变化，因此可以通过降低梯度下降的Adam算法的学习率，并使用Kerasg中实现的早期停止程序，快速进行训练。预培训任务的另一个好处是获得w.r.t.时间估计值的稳定性，这也是一个令人愉快的特性。参考文献[ACBF02]Peter Auer、Nicol\'o Cesa Bianchi和Paul Fischer。“多臂土匪问题的有限时间分析”。《机器学习》47.2（2002），第235-256页。issn：1573-0565。内政部：10.1023/A：1013689704352。url：https://doi.org/10.1023/A:1013689704352.克莱门斯·阿拉修尔（Clemence Alasseur）、亚历山德罗·巴拉塔（Alessandro Balata）、萨哈尔·本·阿齐扎（Sahar Ben Aziza）、阿迪亚·马赫什瓦里（Aditya Maheshwari）、彼得·坦科夫（Peter Tankov）和泽维尔·瓦林（Xavier Warin）。“微电网管理的回归蒙特卡罗”。摘自：ESAIM会议记录和调查，CEMRACS 2017（2019），第46-67页。Alessandro Balata、C^ome Hur\'e、Mathieu Lauri\'ere、Huy^en Pham和IsaquePimentel。

43楼

kedemingshi

发表于 2022-6-11 06:42:13

“一类有限维数值可解的McKeanVlasov控制问题”。摘自：ESAIM会议记录和调查，CEMRACS2017 19（2019），第114-144页。Dimitris Bertsimas、Leonid Kogan和Andrew W.Lo。“对冲衍生证券和不完全市场：ε-套利方法”。《运营研究》49.3（2001），第372-397页。[CL10]Rene Carmona和Mike Ludkovski。“储能评估：最佳切换方法”。摘自：量化金融26.1（2010），第262-304页。Jean-Francois Chassagneux和Adrien Richou。“二次BSDE的数值模拟”。《应用概率年鉴》26.1（2016），第262-304页。[EHJ17]魏南E、韩杰群和阿努夫·詹岑。“基于深度学习的高维抛物型偏微分方程和倒向随机微分方程数值方法”。《数学与统计通讯》5 5（2017），第349-380页。伊恩·古德费罗、约舒亚·本吉奥和亚伦·考维尔。深度学习。MITPress，2016年。gSee EarlyStopping callback in Keras[嘿+18]Benjamin Heymann、J.Fr'ed'eric Bonnans、Pierre Martinon、Francisco J.Silva、Fernando Lanas和Guillermo Jim'enez Est'evez。“微电网能源管理的连续最优控制方法”。《能源系统》9.1（2018），第59-77页。[HL17]皮埃尔·亨利·拉博德尔。“BSDE的深度原始-对偶算法：机器学习在CVA和IM中的应用”。In:SSRN:3071506（2017）。【Hur+18】C^ome Hur'e、Huy^en Pham、Achref Bachouch和Nicolas Langren'e.“有限地平线上随机控制问题的深度神经网络算法，第一部分：收敛性分析”。In:arXiv:1812.04300（2018）。[JP15]Daniel R.Jiang和Warren B.Powell。“单调值函数的近似动态规划算法”。《运筹学》63.6（2015），第1489-1511页。【KPX18】Steven Kou、Peng Xianhua和Xingbo Xu。

44楼

nandehutu2022

发表于 2022-6-11 06:42:16

“随机控制问题的单调通用蒙特卡罗算法”。2018年IMS概率和统计年度会议。2018年【LM19】迈克尔·卢德科夫斯基和阿迪蒂亚·马赫什瓦里。“随机存储问题的模拟方法：统计学习视角”。In：能源系统（2019年）。issn：1868-3975。内政部：10.1007/s12667-018-0318-4。url：https://doi.org/10.1007/s12667-018-0318-4.Gilles Pag\'es、Huy^en Pham和Jacques Printems。“金融数值问题的最优量化方法和应用”。《金融计算和数值方法手册》（2004），第253-297页。阿德里安·里乔。“Etude th'eorique et num'erique des'equations diff'erentiellesstochastiques r'etrogrades”。博士论文。雷恩大学，2010年1月。阿德里安·里乔。“具有二次增长驱动力的BSDE数值模拟”。《应用概率年鉴》21.5（2011），第1933-1964页。理查德·S·萨顿和安德鲁·G·巴托。强化学习。MITPress出版社，1998年。昆汀·陈伟南、约瑟夫·米凯尔和泽维尔·沃林。“半线性偏微分方程的机器学习”。摘自：《科学计算杂志》79.3（2019），第1667-1712页。【YZ99】勇炯敏、周迅宇。随机控制哈密顿系统和HJB方程。斯普林格，1999年。

返回列表

上一页 1 2 3 45

发帖

本版微信群

扫码
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[量化金融] 上随机控制问题的深层神经网络算法 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群