清算策略的多Agent深度强化学习 - 第2页 - 外文文献专区

11楼

nandehutu2022

发表于 2022-6-24 06:05:18

DDPG使用了三个技巧来确保其得到收敛的实验结果：经验回放缓冲区、学习速度和探索噪声。经验丰富的重播方法（Wang et al.，2016）实现了连续过渡之间的切换。学习速率控制着神经网络的更新速度。勘探噪音解释了勘探和开采的权衡。有了这些培训技能，经纪人将从trail anderror中学习，并找到最小化gorithm或Alg的最佳交易轨迹。1解决最优清算问题。4、性能分析在这里，我们将经典的环境模型扩展到多代理场景中，以分析清算问题。4.1. 最优多代理清算短缺定理4.1。在具有Jagents的多代理环境中，每个代理都有Xj股份在给定的时间范围内出售，总的预期差额大于或等于这些代理在单代理环境中可能获得的预期差额之和，例如：JXj=1E（Xj）≤ E（JXj=1Xj），（6），其中E（X）是股票X股的预期变现差额。证据根据Almgren和Chriss模型（即（Almgren和Chriss，2001）中的方程式（20）），最佳预期短缺为：E（X）=γX+X+~ηφX，（7）其中X是初始库存尺寸，φ是与环境设置相关但与库存尺寸无关的参数。因此，E（JXj=1Xj）=γ（JXj=1Xj）+JXj=1Xj+￠η（JXj=1Xj）φ≥γJXj=1Xj+JXj=1Xj+￠ηJXj=1Xjφ=JXj=1E（Xj）。4.2.

12楼

大多数88

发表于 2022-6-24 06:05:21

多智能体交互定理4.2。在两个代理的环境中，代理的风险规避水平λ和代理的风险规避水平λ，其中λ6=λ，并且每个代理都有相同数量的股票要清算，有偏轨迹x（λ）和x（λ）将满足x*（λ） 6=x（λ），x*（λ） 6=x（λ），其中x*（λ） andx*（λ）是市场上唯一的参与者时的最佳交易轨迹。评论在多代理环境中，每个代理都具有风险规避水平λj，实际交易轨迹x（λj）将偏离最佳交易轨迹。证据根据Almgren和Chriss模型（Almgren和Chriss，2001）的（4），V（x）=σNXk=1τxkis与临时或永久价格变化无关，xktk最优交易轨迹的形式为：xk=sinh（κ（λ）（T- tj）sinh（κ（λ）T）X，其中κ（λ）=λση（1-γτ2η).设总库存大小和代理，每个都有x个共享，效用函数u（x）=E（x）+λ*V（x）是参数x的二次函数，xN公司-1，其中λ*是综合风险规避水平，xis是交易轨迹，也可以写成：U（x）=E（x）+λV（x）+λV（x），其中x，xis分别是代理1、2的交易轨迹。然后：Uxk=2τ（λ+λ）σxk- ^1ηxk-1.- 2xk+xk+1τ,和Uxk=0等于τ（xk-1.- 2xk+xk+1）=（￠κ*)xk（8）带κ*=(λ+λ)ση(1 -γτ2η），用于清算策略分析的多智能体深度强化学习，其中tilde表示anO（τ）校正；asτ→ 0，我们有κ→ κ. 那么，我们知道（8）的解是：xk=sinh（κ*（T- tk）sinh（κT）X6=sinh（κ（λ）（T- tk）sinh（κ（λ）T）X+sinh（κ（λ）（T- tk）sinh（κ（λ）T）X，其中右侧是剩余部门的总数，不等于最优交易轨迹下的剩余股份总数，这是函数的左侧。换句话说，他们的新贸易轨迹将是有偏差的。5.

13楼

能者818

发表于 2022-6-24 06:05:24

性能评估我们首先详细描述了仿真环境，然后通过实验验证了定理4.1和定理4.2。然后，我们通过定义适当的奖励函数，使用强化学习方法相互学习，并分析环境。最后，我们推导了多agent环境下的实用交易策略。gren和Chriss模型（Almgren和Chriss，2001）设置以构建多agent环境。我们调整奖励函数来操纵代理人的关系。我们使用Alg。1找到一种能够产生最佳交易轨迹且实施缺口最小的政策。我们将模拟器提供的状态反馈给每个代理。这些代理首先使用参与者模型预测动作，然后在环境中执行这些动作。然后，environment返回其剧集数。5.1. 模拟环境该环境模拟遵循离散算术随机游走的股票价格，以及Almgren和Chriss模型中的永久和交易率（Almgren和Chriss，2001）。我们将总股数设定为1000万股，初始股价设定为P=50，这使得初始投资组合价值为5000万美元。股票价格具有12%的年收益率，买卖价差为1/8，纳斯克价格和买入价格之间的差额，平均每日交易量为500万股。假设一年有250个交易日，那么股价的日波动率为0.12/√250≈ 0.8%. 我们使用清算时间框架ofT=60天，并将交易数量n=60。这导致τ=TN=1，这意味着我们也将根据当天的清算进行调整。对于临时成本函数，我们将固定销售成本设置为买卖价差的1/2，因此 = 1/16. 我们设定η，使我们每天交易量的每1%，价格影响等于买卖价差。

14楼

何人来此

发表于 2022-6-24 06:05:28

例如，每笔交易5/8的一次性成本为5%。在此假设下，我们得到η=（1/8）/（0.01×5×10）=2.5×10。对于永久性成本，一个常见的经验法则是，当我们售出日销售量的10%时，价格效应变得显著。这里，所谓的“重大”，我们的意思是价格下跌是一个买卖价差，对于较小和较大的交易利率，其影响都是线性的，那么我们得到γ=（1/8）/（0.1×5×10）=2.5×10。在我们的所有实验中，除非有规定，否则我们都会运行forepisodes程序。此外，我们还使用以下奖励定义：Rj，t=Uj，t（x*j、 t）- Uj，t+1（x*j、 t+1）Uj，t（x*j、 t），（9），使奖励标准化。5.2. 定理验证5.2.1。最佳清算空头我们首先培训一名需要清算百万股股票的代理。然后，我们培训两个具有相同目标和X，X=0.3，0.7abb相同风险规避水平λA=λB=λB=1e的代理人-6、如图2所示，预期实现短路E（A）大于E（B1）和E（B2）之和。这个结果证明了定理4.1。定理4.1和方程7背后的直觉是，总预期空头增长速度快于股票总数。5.2.2. 多主体互动这里我们想分析两个主体的交易轨迹，或者定理4.2作为一个例子。我们首次培训了风险规避水平λA=1e的培训机构- 4和风险规避水平λA=1e的代理- 9、两人在单个agent环境中分别接受培训。然后，我们以风险规避水平λB=1e对AgentBandBW进行培训- 4，λB=1e- 在两个代理环境中分别为9。所有这些代理的目标与第3节中所述的目标相同。A、A、B、Bare的交易轨迹如图3所示。与单代理环境相比，我们可以看到BandBare的交易轨迹存在偏差。

15楼

能者818

发表于 2022-6-24 06:05:31

与用于清算策略分析的多代理深度强化学习不同，图2。预期实施缺陷的比较：thereA、B1b2高于两个预期缺陷B带的总和。图3。交易轨迹：与他们原来的交易轨迹相比，当他们在多智能体环境中接受训练时，他们当前的交易轨迹更加接近。单一代理方案，即他们可以在市场上出售其股票。其他代理的销售模式会影响其清算策略。结果不仅证明了备注4.2和定理4.2的正确性，还证明了推导交易策略的算法。所有交易者在执行自己的策略时都会相互影响。因此，正如我们在第1.5.3节中所解释的，在单一代理环境中培训一个代理可以简化股票市场的随机性和动态性。多agent协调关系为了分析各种协调行为的出现，我们调整奖励方案以改变agent之间的关系。只有两家代理机构负责出售50万股股票。他们共享相同的风险规避水平λ=1e- 接下来两个实验的唯一区别是奖励函数的定义。然后，我们将预期短缺的总和与独立培训的预期短缺进行比较，以评估这种关系将如何影响总体和个别实施短缺。图4：。在合作关系中，总的预期缺口并不优于具有独立奖励函数的培训。如果二者将预期缺口最小化，那么恶性竞争将导致显著的实施缺口增量。5.3.1.

16楼

何人来此

发表于 2022-6-24 06:05:34

多代理协作在此设置中，我们要分析代理的行为调整奖励函数如下：~R*1，t=~R*2，t=▄R1，t+▄R2，t，（10），其中▄R*j、使用新的奖励功能。两个代理都将获得各自的奖励，以最大限度地减少实施不足。结果如图4所示。首先，我们注意到，与使用▄Rj，ttation shortfallE训练两个代理相比，预期shortfallE的总和没有太大变化*（十）*j）与最初的实现shortfallE（x）相比没有太大变化*j），其中X*JIS最佳交易轨迹。5.3.2. 多代理竞争在这种情况下，我们想分析代理在竞争关系中的行为。因此，我们按如下方式调整奖励函数：如果▄R1，t>▄R2，t然后▄R*1，t=~R1，t，~R*2，t=~R2，t-R1，t，其他▄R*2，t=~R2，t，~R*1，t=￠R1，t-R2，t，结束If，其中▄R*j、使用新的奖励功能。在这种情况下，获得较高奖励的代理将保留，但获得较低奖励的代理将受到处罚。用于清算策略分析的ItMulti-Agent深层强化学习图5。交易轨迹：与独立培训相比，引入竞争对手可以让主代理学会适应新环境，并在头两天内卖出所有股票。nus奖励越高，为负值。从图4中我们可以看到，预期短缺的总和大约是独立或合作关系的两倍。通过查看atepisode交易轨迹的快照，这两个代理学习最大化第3.1节中定义的效用函数。这两种代理都表现良好，并导致预期短缺总额的显著增加，orPj=1E*（十）*j） >Pj=1E（x*j）。上一集的交易部门（tradingtrajectory）显示，一名经纪人学会了在第1天出售其所有股份。

17楼

大多数88

发表于 2022-6-24 06:05:36

此外，两种药物的预期短缺增加，或*（十）*j） >E（x*j）。我们的结论是，不仅他们的总体表现有所下降，他们的个人表现也更差。他们中没有一个在相互竞争中获胜。5.4. 清算战略发展战略，考虑到竞争对手的交易轨迹。这里我们介绍一位代理人，他有50万股股票要出售，风险规避水平λ=1e- 9、我们已经在图3中看到，最佳交易轨迹是每天固定数量的股票。我们培训一名拥有另外50万股股票的经纪人，以风险规避水平λ=1e出售-为了进行比较，我们还绘制了在单个代理环境中对代理进行独立培训时的最优交易轨迹。如图5所示，如果没有竞争对手，最优轨迹显示代理将在大约几天内完成清算过程。在我们改变之后。现在，代理人在第一天内出售其所有股份。代理人学会在很短的时间内出售所有股份，以避免承担不必要的风险，并让竞争代理人承担价格下跌的执行成本。6结论和未来工作6.1。贡献我们展示了单一代理人的环境，而不是简单的股票的动态性和互动性。这些交易者充当游戏玩家，尤其是对于清算等系统性交易问题。在目前的工作中，我们扩展了Almgren和Chriss模型（Almgren和Chriss，2001）的范围，并使用强化学习方法对其进行验证，这为多代理交易环境奠定了基础。我们说明了使用多代理环境来开发交易策略的需求。我们分别分析了充分合作和竞争关系如何影响总体和个别实施不足。

18楼

可人4

发表于 2022-6-24 06:05:39

我们的结论是，合作关系并不比独立关系好，竞争关系会损害整体和个人绩效。最后，我们证明了强化学习代理的能力，并导出了optimal6.2。限制由于本文的目的是分析环境和试剂的相互作用，只要合理，我们就保持简单的设置。因此，我们没有构建更复杂的神经网络体系结构，我们的最佳预期短缺比Almgren和Chriss模型得出的最佳预期短缺减少了20%（Almgren和Chriss，2001）。我们可以在状态向量中添加更多的动态因子。此外，还可以考虑Amlgren和Chriss模型以外的高级背景模型。虽然所有这些方法都有可能改进这项工作，但我们认为，目前还没有必要描述多代理交易环境的性质和分析代理的行为，来初步分析清算问题。6.3. 未来更加现实的交易环境的工作发展，包括更多动态因素，如新闻、总体战略和法律投诉，将为财务分析做出巨大贡献。一个潜在的扩展是通过考虑乐观牛市或悲观熊市（Li et al.，2019b）或异常事件（Liet al.，2019a）对股票清算的研究。LSTM表示，一个潜在的应用是使用预测代理人的行为来预测股价变动（Li等人，2019a）。清算策略分析的多智能体深度强化学习参考Almgren，R.和Chriss，N.portfoliotransactions的最优执行。《风险杂志》，2001年3:5-40。Bansal，T.、Pachocki，J.、Sidor，S.、Sutskever，I.和Mortion。arXiv预印本arXiv:1710.037482017。和Vissing jorgensen，A.《高频交易及其对市场质量的影响》，2010年。套期保值。

19楼

mingdashike22

发表于 2022-6-24 06:05:43

《定量金融》，第1-21页，2019年。Foerster，J.、Nardelli，N.、Farquhar，G.、Afouras，T.、Torr，P.H.、Kohli，P.和Whiteson，S.《用于深层多智能体强化学习的稳定体验游戏》。《第34届机器学习国际会议论文集》第70卷，第1146-1155页。JMLR。org，2017年。Gomber，P.、Arndt，B.、Lutat，M.和Elko Uhle，T.高频交易。SSRN电子杂志，2011年1月。内政部：10.2139/ssrn。1858626.almgren-chriss金融工程与经济最佳贸易代理框架（CIFEr）的张力，第457-464页。IEEE，2014年。Li，X.，Li，Y.，Liu，X-Y.，和Wang，C.《通过异常规避进行风险管理：记忆深度学习形成术语股票预测》。在KDD金融异常检测研讨会上，2019a。Li，X.，Li，Y.，Zhan，Y.，和Liu，X.-Y.乐观牛市或悲观熊市：股票投资组合配置的自适应深度强化学习。在ICML多智能体学习应用和基础设施研讨会上，2019b。Lillicrap，T.P.、Hunt，J.J.、Pritzel，A.、Heess，N.、Erez，T.、Tassa，Y.、Silver，D.和Wierstra，D.通过深度强化学习进行持续控制。ICLR，2016年。Lowe，R.、Wu，Y.、Tamar，A.、Harb，J.、Abbeel，O.P.和Mordatch，I.《混合合作竞争环境的多智能体演员评论家》。《神经信息处理系统进展》，第6379-63902017页。Mnih，V.，Kavukcuoglu，K.，Silver，D.，Rusu，et al.《通过深度强化学习实现人的水平控制》。《自然》，518（7540）：5292015。Mnih，V.、Badia，A.P.、Mirza，M.、Graves，A.、Lillicrap，T.、Harley，T.、Silver，D.和Kavukcuoglu，K.深度强化学习的异步方法。国际机器学习会议，1928-19372016页。Omidsha fiei，S.、Pazis，J.、Amato，C.、How，J.P.和Vian，J.部分可观测下的学习。

20楼

何人来此

发表于 2022-6-24 06:05:46

第34届机器学习国际会议记录第70卷，2681-2690页。JMLR。org，2017年。Schaul，T.、Quan，J.、Antonoglou，I.和Silver，D.优先考虑体验重播。arXiv预印本arXiv:1511.059522015。Silver，D.、Huang，A.、Maddison，C.J.、Guez，A.等。通过深度神经网络和树搜索掌握围棋游戏。《自然》，529（7587）：4842016。萨顿，R.S.和巴托，A.G.《强化学习：简介》。麻省理工学院出版社，2018年。Tampuu，A.、Matiesen，T.、Kodelja，D.、Kuzovkin，I.、Korjus，K.、Aru，J.、Aru，J.和Vicente，R.深度强化学习的多智能体合作与竞争。PloS One，12（4）：E01723952017年。Van Hasselt，H.、Guez，A.和Silver，D.双q学习的深度强化学习。2016年第三十届美国艺术情报学会（AAAIConference on Arti-ficial Intelligence）上。Wang，Z.、Bapst，V.、Heess，N.、Mnih，V.、Munos，R.、Kavukcuoglu，K.和de Freitas，N.样本参考文献十四：1611.012242016。Xiong，Z.，Liu，X-Y.，Zhong，S.，Walid，A.，et al.《金融服务实务》，2018年。Yang，H.，Liu，X-Y.，和Wu，Q.一种实用的动态股票推荐机器学习方法。InIEEE国际信任、安全和隐私会议（TrustCom），第1693-1697页。IEEE，2018a。Yang，Y.，Luo，R.，Li，M.，Zhou，M.，Zhang，W.，和Wang，J.平均场多智能体强化学习。第35届国际机器学习会议，ICML2018，第80卷，第5571-5580页。PMLR，2018b。Yu，P.，Lee，J.S.，Kulyatin，I.，Shi，Z.，和Dasgupta，S.基于模型的动态组合优化深度强化学习。arXiv预印本arXiv:1901.087402019。

[量化金融] 清算策略的多Agent深度强化学习 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群