纳什均衡的深度Q学习：纳什DQN - 第3页 - 外文文献专区

21楼

发表于 2022-6-14 13:42:11

这是限制所有代理在时间步T具有中立立场的副产品。在任何一个面板中，从左到右的子地块移动时，阈值向下移动，有时低于零库存。相比之下，其他代理的平均库存较高通常会增加阈值。根据最优策略，通过代理活动的样本库存路径可以更清楚地看到其中的一些特性–见图2。所有代理的初始库存都是从正态分布（q"Np0，σqIq，σq“5）中随机抽取的，但跨列保持不变，但跨行变化。初始资产价格是从正态分布（p"N p10，σpq，σp“1）中随机抽取的，但跨行保持不变，但跨列变化。资产价格过程是模拟的（使用影响函数（6.3））和（6.1）中的动力学），行之间的随机种子相同，但列之间的随机种子不同。通常，所有代理的库存都会趋同，最终在交易期结束时消失，并对资产价格的变化作出反应，但在价格低时买入，在价格高时卖出。6.4. 平方根价格影响。另一个重要的价格影响函数是平方根影响，它对应于选择：（6.5）gpSt，νtq“κpθ'Stq'bsgnp'νtqa'νt'和gpSt，νtq”σ，其中b，κ，θ，σ2610分别是与净交易的价格影响、价格过程的平均反转率、平均反转水平和资产的波动性相对应的常数。对于我们的实验，我们使用与表1中相同的参数。作为提示，代理人的奖励函数由（6.2）和B级对应终端和运行风险处罚。

22楼

kedemingshi

发表于 2022-6-14 13:42:19

图1和图2中平方根情况下的热图和样本库存路径的类似物可在图3和图4中找到。然而，第6.3小节中的大部分观察结果都适用于平方根情况，一个关键区别是其他代理的库存对单一代理的最佳行动的影响程度。在这里，增加其他代理商库存的影响明显低于线性价格的情况。这一点也可以从图4中的样本库存路径中观察到，尽管不太清楚，其中初始库存明显不同于零的代理收敛到其他代理的库存的速度更慢–尤其请参见中心面板。（a） \'q'i“20（b）\'q'i”0（c）\'q'i“'20图3：作为时间、库存、价格和其他代理的平均库存函数的平方根价格影响的最佳交易执行热图。在每个面板中，子地块从左到右对应价格水平$6、$8、$14。虚线显示代理从购买切换到出售的阈值。图4：库存路径示例和相应的价格路径s表示平方根冲击模型。实线表示代理的库存路径，虚线表示资产价格路径。7、结论。在这里，我们提出了一个计算可处理的多智能体（随机）博弈的强化框架。我们的方法在将代理的状态动作值函数集合分解为单个值函数及其优势函数后，利用函数近似。此外，我们用线性二次型近似优势函数，并使用神经网络结构来近似值和优势函数。

23楼

nandehutu2022

发表于 2022-6-14 13:42:22

游戏中的典型对称性允许我们使用由Arnold Kolmogorov表示定理激发的置换不变神经网络来降低参数空间的维数。最后，我们开发了一个演员-评论家范式来估计参数，并将我们的方法应用于电子交易中的两个重要应用。我们的方法数据效率高，适用于大量参与者和连续状态动作空间。有许多有待探索的门，包括将我们的方法扩展到有潜在因素驱动环境的情况，以及当所有试剂的状态部分（或完全）对任何单个试剂隐藏时。此外，我们的方法可以很容易地应用于平均场博弈，该博弈对应于随机博弈的有限人口限制，其中任何个体代理对状态动力学只有有限的贡献。参考文献【1】L.Bu、R.Babu、B.De Schutter等人，《多智能体强化学习综合调查》，《IEEE系统、人与控制论交易》，C部分（应用与评论），38（2008），第156-172页。[2] R.Carmona和F.Delarue，《平均场对策概率理论：第一卷，平均场fbsdes，控制与对策，随机分析与应用》。Springer Verlag（2017年）。[3] P.Casgrain和S.Jaimungal，《算法交易中具有不同信念的平均场游戏》，arXiv预印本arXiv:1810.06101，（2018）。[4] P.Casgrain和S.Jaimungal，《具有算法交易部分信息的平均场游戏》，Philippe，arXiv预印本arXiv:1803.04094，（2018）。[5] S.Gu、T.Lillicrap、I.Sutskever和S.Levine，《基于模型加速的持续深度q学习》，国际机器学习会议，2016年，第2829-2838页。[6] X.Guo、A.Hu、R.Xu和J。

24楼

大多数88

发表于 2022-6-14 13:42:26

张，学习平均场游戏，arXiv预印本arXiv:1901.09585，（2019）。[7] M.Hessel、J.Modayil、H.Van Hasselt、T.Schaul、G.Ostrovski、W.Dabney、D.Horgan、B.Piot、M.Azar和D.Silver，《Rainbow：深度强化学习的结合改进》，第三十二届AAAI艺术情报会议，2018年。[8] J.Hu和M.P.Wellman，《一般和随机博弈的纳什q学习》，机器学习研究杂志，4（2003），第1039-1069页。[9] R.Hu，《随机差异游戏的深度游戏》，arXiv预印本arXiv:1903.09376，（2019）。[10] M.Huang，《涉及主要参与者的大规模LQG博弈：纳什确定性等价原则》，暹罗控制与优化杂志，48（2010），第3318-3353页。[11] M.Huang，R.P.Malham'e，P.e.Caines等，《大种群随机动态博弈：闭环mckean-vlasov系统和纳什确定性等价原则》，信息与系统通信，6（2006），第221-252页。[12] X.Huang、S.Jaimungal和M.Nourian，《优化执行的平均场博弈策略》，AppliedMathematical Finance，即将出版，（2015年）。[13] V.R.Konda和J.N.Tsitiklis，《演员-评论家算法》，神经信息处理系统进展，2000年，第1008-1014页。[14] M.Lanctot、V.Zambaldi、A.Gruslys、A.Lazaridou、K.Tuyls、J.P'erolat、D.Silver和T。Graepel，《多智能体强化学习的统一博弈论方法》，《神经信息处理系统进展》，2017年，第4190–4203页。[15] J.-M.Lasry和P.-L.Lions，《平均场游戏》，日本数学杂志，2（2007），第229-260页。[16] V.Mnih、K.Kavukcuoglu、D.Silver、A.Graves、I.Antonoglou、D.Wierstra和M.Riedmiller，《用深度强化学习弹奏雅达利》，arXiv预印本arXiv:1312.5602，（2013年）。[17] M.Nourian和P.E。

25楼

何人来此

发表于 2022-6-14 13:42:29

凯恩斯，-具有主要和次要代理的非线性随机动态系统的纳什平均场博弈理论，暹罗控制与优化杂志，51（2013），第3302-3331页。[18] R.S.Sutton、D.A.McAllester、S.P.Singh和Y.Mansour，《函数逼近强化学习的策略梯度方法》，神经信息处理系统进展，2000年，第1057-1063页。[19] E.Todorov和W.Li，《约束非线性随机系统局部最优反馈控制的广义迭代lqg方法》，2005年美国控制会议论文集，2005年。，IEEE，2005，第300–306页。[20] M.Zaheer、S.Kottur、S.Ravanbakhsh、B.Poczos、R.Salakhutdinov和A.J.Smola，《深度集》，神经信息处理系统进展，2017年，第3391-3401页。

[量化金融] 纳什均衡的深度Q学习：纳什DQN [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群