楼主: kedemingshi
1081 19

[量化金融] 清算策略的多Agent深度强化学习 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-24 06:04:45 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Multi-Agent Deep Reinforcement Learning for Liquidation Strategy
  Analysis》
---
作者:
Wenhang Bao, Xiao-yang Liu
---
最新提交年份:
2019
---
英文摘要:
  Liquidation is the process of selling a large number of shares of one stock sequentially within a given time frame, taking into consideration the costs arising from market impact and a trader\'s risk aversion. The main challenge in optimizing liquidation is to find an appropriate modeling system that can incorporate the complexities of the stock market and generate practical trading strategies. In this paper, we propose to use multi-agent deep reinforcement learning model, which better captures high-level complexities comparing to various machine learning methods, such that agents can learn how to make the best selling decisions. First, we theoretically analyze the Almgren and Chriss model and extend its fundamental mechanism so it can be used as the multi-agent trading environment. Our work builds the foundation for future multi-agent environment trading analysis. Secondly, we analyze the cooperative and competitive behaviours between agents by adjusting the reward functions for each agent, which overcomes the limitation of single-agent reinforcement learning algorithms. Finally, we simulate trading and develop an optimal trading strategy with practical constraints by using a reinforcement learning method, which shows the capabilities of reinforcement learning methods in solving realistic liquidation problems.
---
中文摘要:
清算是指在给定的时间范围内,考虑到市场影响和交易者风险厌恶所产生的成本,按顺序出售一只股票的大量股票的过程。优化清算的主要挑战是找到一个合适的建模系统,该系统可以结合股票市场的复杂性并生成实用的交易策略。在本文中,我们建议使用多agent深度强化学习模型,与各种机器学习方法相比,该模型能够更好地捕获高级复杂性,从而使agent能够学习如何做出最佳销售决策。首先,我们从理论上分析了Almgren和Chriss模型,并对其基本机制进行了扩展,使其可以作为多agent交易环境。我们的工作为未来的多agent环境交易分析奠定了基础。其次,通过调整每个agent的奖励函数来分析agent之间的合作和竞争行为,克服了单agent强化学习算法的局限性。最后,我们通过使用强化学习方法模拟交易,并开发出具有实际约束的最优交易策略,这表明了强化学习方法在解决实际清算问题方面的能力。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Multi-Agent_Deep_Reinforcement_Learning_for_Liquidation_Strategy_Analysis.pdf (511.6 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:agent Age Quantitative Applications CAPABILITIES

沙发
大多数88 在职认证  发表于 2022-6-24 06:04:51
用于清算策略分析的多智能体深度强化学习Wenhang BaoXiao Yang Liu,在一个特定的时间框架内按顺序提取一只股票的股票,考虑到市场冲击和交易者的风险厌恶所产生的成本。优化清算的主要挑战是找到一个合适的建模系统,该系统可以整合股票市场的复杂性并生成实用的交易策略。在本文中,我们建议使用多智能体深度强化学习模型,与各种机器学习方法相比,该模型能够更好地捕获高级复杂性,从而使智能体能够学习如何做出最佳销售决策。首先,我们从理论上分析了Almgren和Chriss模型,并扩展了其基本机制,使其可以作为多代理交易环境。我们的工作为未来的多agent环境交易分析奠定了基础。其次,通过调整每个agent的奖励函数来分析agent之间的合作和竞争行为,克服了单agent强化学习算法的局限性。最后,我们使用强化学习方法模拟阅读并开发具有实际约束的最优交易策略,这表明了强化学习方法在解决现实清算问题方面的能力。1、介绍清算作为一种股票交易,是金融机构的主要职能之一,将销售成本降至最低和管理风险水平的能力将是其财务绩效的关键指标。因此,有效的贸易战略至关重要。

藤椅
mingdashike22 在职认证  发表于 2022-6-24 06:04:54
金融机构最近正在利用纽约哥伦比亚大学高级统计系(advancedDepartment of Statistics,Columbia University,New York)和美国纽约哥伦比亚大学(Columbia University,New York)UseElectrical Engineering更新其战略。收件人:鲍文航<wb2304@columbia.edu>,刘晓阳<xl2427@columbia.edu>.《机器学习国际会议论文集》,加利福尼亚州长滩,PMLR 972019年。作者版权所有2019。图1:。清算:多个代理人在市场上出售股票,他们的出售决定会影响彼此出售成本研究结果或前沿技术。然而,还有一些挑战。首先,大量股票的清算将对市场产生巨大影响,使环境难以预测。其次,现有的静态环境分析方法忽视了股票市场的动态性和互动性。第三,清算的交易成本取决于股票市场,研究人员通常无法收集足够的历史事件数据以获得实际的交易见解。制定交易策略的方法,但两者都有局限性。过去几年,金融机构依靠经验丰富的交易员将交易成本和金融模型降至最低,以帮助制定清算策略(Gomber et al.,2011;Brogaard et al.,2010)。然而最近,研究人员也开始采用机器学习方法。强化学习(RL)是一种机器学习方法,由与环境交互的代理组成,通过跟踪和错误学习最优策略(sequentialselt等人,2016)。

板凳
大多数88 在职认证  发表于 2022-6-24 06:04:57
虽然RL的大多数成功都是在单代理领域,其中没有考虑对环境中其他参与者的行为进行建模或预测,但获得的交易策略(Xiong等人,2018)针对清算策略分析市场的多代理深度强化学习。更普遍的情况是,多个组织或客户希望在特定的市场条件下同时清算其资产。因此,2017),一个代理的行为会影响其他代理的行为(Yang等人,2018b),如图1所示。另一种情况是,即使只有一个公司,也可以有多个交易员,每个交易员都负责一定比例的股票出售。金融行业的强化学习方法,其研究不如游戏领域的单代理强化深度强化学习(Silver et al.,2016;Mnih et al.,2015),机器人和金融交易系统(Yu et al.,2019;Buehler et al.,2019)。假设是可以避免数学模型或硬编码的交易策略。强化学习代理可以自己学习交易策略。此外,模拟环境将允许代理人适应不同的市场条件和交易股票,并获得比人类交易员在真实金融市场中获得的更多经验(Schaul et al.,2015;Foerster et al.,2017)。最后但并非最不重要的一点是,多智能体强化学习算法可以考虑高层次的环境复杂性(Hendricks&Wilcox,2014),并相应地得出更实际的清算策略。本文的主要贡献是对多代理人交易环境的分析,代理人之间协调关系的影响分析,以及清算策略的推导。

报纸
mingdashike22 在职认证  发表于 2022-6-24 06:05:00
理想情况下,如果多智能体环境足够复杂,能够容纳所有潜在参与者的行为,那么股市就不会有噪音,正如多智能体系统所系统地模拟的那样。Webbuild多代理环境的简化版本,它是更复杂环境的基础。首先,我们扩展了Almgren和Chriss提出的模型,并提供了数学证明。我们利用传统的单智能体强化学习算法来分析清算问题。其次,通过定义适当的奖励函数,分析这些代理如何影响彼此以及整个环境,这不能由单个代理环境来分析,但对金融机构非常重要。第三,在模拟的多agent环境中,我们推导了每个agent的交易策略。这证明了强化学习算法在学习和开发实际清算策略方面的能力。本文的其余部分组织如下。第2节描述了清算问题,并回顾了用于模拟市场环境的Almgren和Chriss模型。第3节介绍了多代理市场环境扩展的详细设置。第5节给出了实验结果,我们在其中演示了关系以及如何推导清算策略。第6节总结了本文,并指出了未来的发展方向。代码位于:https://github.com/WenhangBao/MultiAgent-RL-for-Liquidation2.问题描述在本节中,我们首先描述清算问题,并解释为什么使用强化学习算法来解决它是可行的。然后我们描述了Almgren-andChriss模型或交易环境。2.1.

地板
可人4 在职认证  发表于 2022-6-24 06:05:03
最优清算问题我们考虑一个清算交易者,其目标是在一个时间框架内出售一只股票的X股。清算人的个人特征,如风险规避水平λ,将在整个过程中保持不变。交易者可以卖出或不卖出股票,但在此期间不能购买任何股票。在时间框架的最后一天,清算过程结束,股票数量应为。由于在出售过程中暂时或永久性下跌,可能会导致巨大的交易成本。交易员或代表性金融机构寻求找到最佳的销售策略,根据特定的优化标准,将预期交易成本(X)或所谓的实施缺口降至最低。交易者将知道所有环境信息,包括价格、历史价格和剩余交易天数。如果有贸易商,他们就不会知道其他贸易商的信息。股票或风险规避水平。基于交易会产生市场影响以及代理人和环境是互动的假设,在环境中培训代理人并使用强化学习算法得出清算策略是可行的(Yang等人,2018a)。用于清算策略分析的多智能体深度强化学习2.2。模拟的环境模型在股票市场的代理契约分为三个组成部分:未受影响的价格过程、永久影响和暂时性,但从均值方差中消除的背景下,利用Almgren-Chriss市场影响模型(Almgren&Chriss,2001)研究了最优清算策略的问题。价格过程允许永久价格和临时价格的线性函数。

7
何人来此 在职认证  发表于 2022-6-24 06:05:06
因此,该模型可以作为一个交易环境,当代理做出销售决策时,环境将返回价格信息。gren&Chriss,2001)如下:o临时和永久影响下的价格Pk=Pk-1+στ1/2ξk- τg(nkτ),k=1,n其中σ表示股票的波动性,ξkarrandom变量具有零均值和单位方差,g(v)是平均交易率的函数,v=时间间隔tk期间的nk/τ-1totk,Nk是在时间间隔内出售的股份数量tk-1totk,N是交易总数,τ=T/N。o库存过程:xtk=X-Pkj=1nj,其中xtk是时间tk剩余的股份数量,其中xt=0线性永久冲击函数g(v)=γv,其中v=nkτo临时冲击函数h(nkτ)= sgn(nk)+ητnk,其中是固定的销售成本,η取决于市场微观结构的内部和瞬态方面参数σ、γ、η,, 时间框架t,交易数量n设置为t=0.3。深度强化学习方法我们将清算过程建模为马尔可夫决策过程(MDP),然后制定用于解决问题的多智能体设置。还绘制了培训图,详细说明了多个代理如何交互和从环境中学习。我们使用implementationMDP流程可以将目标定义为最小化预期的实施不足。3.1. 清算作为一个MDP问题市场,我们将股票交易过程建模为Markovdecision过程,具体如下:os=[r,m,l]的日志返回r∈ RD+,其中是日志返回的天数,剩余的交易数由交易总数归一化,剩余的股票数l,由timetk之前的股票价格总和归一化,其中是当前步骤。

8
何人来此 在职认证  发表于 2022-6-24 06:05:09
需要注意的是,在现实世界的交易场景中,该状态向量可能包含更多的变量Actiona:我们把ActionAka理解为一个销售分数。在这种情况下,操作将采用0到1之间的连续值R(s,a)两个连续效用函数之间的差。效用函数由以下公式给出:U(x)=E(x)+λV(x),(1)E(x)=NXk=1τxkg(nkτ)+NXk=1nkh(nkτ),(2)V(x)=σNXk=1τxk,(3)其中λ是风险规避水平,x是交易部门或每个时间步剩余股份的向量,0≤ tk公司≤ T、 在每个时间步之后,我们使用Almgren和Chriss模型中的方程forE(x)和v(x)计算剩余时间λtby x的效用*t、 我们将奖励定义为:Rt=Ut(x*t)- Ut+1(x*t+1)。(4) oπ(s)s。本质上是s州的销售百分比a的分布。o行动价值函数qπ(s,a):在s州的行动a按照政策π实现的预期回报。3.2. 多智能体强化学习设置学习是一种将高级复杂性融入系统的能力。单代理环境是代理数j=1的特殊情况。它简化了多智能体深层强化学习,用于多智能体环境中的清算策略分析。按照上一节中的MDP配置,我们将多代理信息学习设置指定如下:oStatess=[r,m,l]:在多代理环境中,JenEnvironment,时间tk的状态向量为:[rk-Drk公司-1,rk,mk,l1,k。

9
能者818 在职认证  发表于 2022-6-24 06:05:12
,lJ,k],其中–rk=log(PkPk-1) 是在时间tk返回的日志–mk=Nk是剩余交易数量,按交易总数标准化lj,k=xj,kXjis为jtkof股份的剩余股份数行动a:使用第3.1节中的解释,我们可以确定每个时间步要出售的股票数量,使用:nj,k=aj,k×xj,k,其中xj,kis是代理j在时间点的剩余股票数量。o报酬(s,a):表示代理jbyx在时间点计算的最佳交易轨迹*j、 t,我们将其定义为:Rj,t=Uj,t(x*j、 t)- Uj,t+1(x*j、 t+1)。(5) o信息(Omidsha fiei等人,2017年)。换句话说,除了环境信息外,每个代理都知道自己的剩余份额,但不知道其他代理的剩余份额。agent j的观测向量attime tkf为:Oj,k=[rk-Drk公司-1,rk,mk,lj,k]。3.3. 深度强化学习算法我们采用演员-评论家(Mnih et al.,2016;Lowe et al.,2017)方法,该方法使用神经网络来近似Q值和动作。评论家学习Q-valuefunction并使用它更新参与者的策略参数。临界网络(Thecritic network)在不需要Q值函数的情况下,估计一个状态行动的预期回报,而临界网络(Thecritic network)则为参与者提供有关表演的知识。参与者网络具有直接的输入和返回状态。

10
kedemingshi 在职认证  发表于 2022-6-24 06:05:15
演员-评论家方法通常具有良好的收敛性,这与仅评论家方法不同。算法1基于DDPG的多agent训练输入:情节数、时间框架、minibatchsize N、学习率λ和agent数J1:对于j=1,j%分别初始化每个agent do2:随机初始化评论家网络Qj(Oj,a |θQj)和agent网络uj(Oj |θuj),随机权重θQjandθujfor agent j;3: 使用权重θQj初始化目标网络qjanduj← θQj,θuj← θuj,对于每个试剂j;4: 初始化每个代理j的重播缓冲区bj;5: 结束6:对于第1集,M do7:N8:接收初始观察状态s;9: 对于t=1,t do10:对于j=1,j%分别训练每个代理do11:根据当前政策和勘探噪声选择actionaj,t=uj(Oj,t |θuj)+n;12: 结束for13:每个代理执行动作aj,t;14: 市场状态变为st+1;15: 每个代理人观察报酬rj,tand observationj,t+1;16: 对于j=1,j do17:在Bj中存储转换(Oj、t、aj、t、rj、t、Oj、t+1);18: 从Bj随机抽取一小批过渡(Oj、i、aj、i、rj、i、Oj、i+1);19: 设置yj,i=rj,i+γQj(st+1,uj(Oj,i+1 |θuj |θQj)),对于i=1,N20: 通过最小化损失更新评论家:L=NPi(yj,i- Qj(Oj,i,aj,i |θQj));21:使用sampledpolicy梯度更新参与者策略:θuπ ≈NXi公司aQj(O,a |θQj)| O=Oj,i,a=uj(Oj,i)×θuj(Oj |θu)| si;22:更新目标网络:θQj← τθQj+(1-τ) θQj,θuj← τθuj+(1-τ) θuj.23:end For 24:end For 25:end For For Deep Deterministic Policy Gradients(DDPG)算法(Lillicrap et al.,2016)是一种动作临界方法。我们将使用DDPG生成用于清算策略分析的最优多智能体深度强化学习执行清算策略。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 05:45