楼主: mingdashike22
1034 19

[量化金融] 乐观牛市或悲观熊市:适应性深度强化 [推广有奖]

11
何人来此 在职认证  发表于 2022-6-24 07:06:10
与DDPG相关的基本概念为了解决上述问题,并考虑到交易市场的随机性和互动性,我们将股票交易过程建模为马尔可夫决策过程(MDP),如图2所示,这是特定的辅助部分:状态、行动、奖励、贴现未来奖励、政策和行动价值。状态=[p,w,b]:是环境的状态。这些状态是根据代理的行为策略生成的。sis包含股票价格信息的集合∈ RD+,持股重量SW=(w,w,…,wD)T;wi公司∈ [0,1],i=1,2。。。,DPDi=1wi=1,剩余余额b∈ R+,其中是我们在市场上考虑的股票数量,Z+表示非负整数。Actiona:所有存储上的一组操作。每只股票的可用性包括出售、购买和持有,这分别导致持有权重的减少、增加和不变。DDPG是一个learningcontinuous,因为我们的体重在不断变化。r(s,a,s)行动是在各州采取并到达新的州。投资组合价值是所有heldstocksptw中的权益和余额b的总和。我们还将dr(s,a,s)称为单步奖励值,在各州执行操作后由环境返回。上述关系可以用图3中的状态转换来表示:图3。状态转换图。贴现未来报酬:是未来状态的加权和。Rt=TXi=tγi-tr(si,ai,si+1),(6),其中γ称为贴现率,γ∈ [0,1],通常γ=0.99。政策π:各州的股票交易策略。它本质上是AT状态的概率分布。

12
可人4 在职认证  发表于 2022-6-24 07:06:13
更具体地说,给定一个州,决策政策将计算下一步要采取的行动。动作值函数Qπ(s,a):在遵循策略π的状态s下,动作a实现的预期回报。3.1.2. 股票市场动力学框架股票交易问题的解决方案之一是将其建模为MDP,并使用动态规划(DP)来求解最优策略。然而,DP只解决小离散状态空间的问题。在这些挑战的驱动下,我们探索了深度强化学习算法DDPG(Lillicrap et al.,2015)(Xiong et al.,2018)(Bao&Liu,2019),以找到复杂动态股票市场中的最佳交易策略。大多数强化学习算法归结为三个主要步骤:推断、执行和学习。在第一步中,该算法利用迄今为止掌握的知识选择各州的最佳行动。接下来,它将执行一个操作,以找出奖励以及下一个状态。然后,它利用新获得的知识提高对世界的理解。我们将描述股票市场动力学的框架如下。我们使用subscriptt表示时间t,对库存d的可用操作为:okk∈ [0,wd]d=1。。。,D可以从当前持有的股份中出售股份,其中K必须是权重。在这种情况下,wt+1=wt- k、 o保持:k=0,不会导致重量变化。oktowt+1=重量+k。在这种情况下,[d]=-kis消极观点。ICML 2019的提交和格式说明应注意,所有购买的股票不应导致投资组合价值出现负余额。也就是说,在不丧失一般性的情况下,我们假设销售订单是在第一批股票上完成的,购买订单是在最后一批股票上完成的,并且应该满足以下条件- d: d]Tat[d- d: d]≥ 0。剩余余额更新为bt+1=bt+PTAT。

13
大多数88 在职认证  发表于 2022-6-24 07:06:16
如上所述,投资组合价值包括所有持有股票的余额和权益之和。在时间t,采取行动,并根据执行的行动和股票价格的更新,投资组合价值在时间(t+1)从“投资组合价值0”更改为“投资组合价值1”、“投资组合价值2”或“投资组合价值3”。根据贝尔曼方程,采取行动的预期回报是通过计算回报的预期Sr(st,at,st+1)加上下一状态的预期回报st+1来计算的。基于回报率被γ因子贴现的假设,我们有qπ(st,at)=Est+1{r(st,at,st+1)+γEat+1~π(st+1)[Qπ(st+1,at+1)]}。(7) 上述Qfunction是在执行操作后在状态st中定义的操作值函数。目标是设计一种交易策略,在未来的目标时间TF(即pTtfwt+btf,也相当于toPtf)最大化投资回报-1t=1r(st、at、st+1)。由于模型的马尔可夫性,问题可以归结为优化使函数qπ(st,at)最大化的策略。这个问题很难解决,因为策略制定者不知道动作值函数,必须通过与环境交互来学习。因此,本文采用乐观&悲观3.2。优化模型结合了MarketEnvironment强化学习,提出了一种有效的穿透方法。3.2.1. 改进的RESCORLA-WANGER模型计算部分包括RESCORLA-WANGER模型(也称为Q-learning,以下称为RWmodel)。在RW模型的基础上,我们使用了一个改进的模型,该模型不同于正面和负面环境情绪新闻。正面和负面预测新闻(简称RW±)。对于每个州,Q值表示在给定的市场环境中通过采取特定措施获得的预期回报。

14
mingdashike22 在职认证  发表于 2022-6-24 07:06:19
考虑到我们有三个行动购买、持有和出售,该模型根据顺序行动和结果估计购买、持有和出售期权的预期价值。学习之前,初始Q值设置为0。在每个步骤t中,期权(买入、持有和卖出)的价值根据规则更新,如下所示:Qπ(st+1,at+1)=Qπ(st,at)+αδ(t)。(8) 其中α是学习率,这是一个调整从一次试验到下一次试验变化幅度的比例参数,δ(t)是预测误差(我们还定义了环境情绪新闻),计算如下:δ(t)=r(st,at,st+1)- Qπ(st,at),(9)是Qπ(st,at)的预期回报与实际回报(st,at,st+1)之间的差值。按照这一规则,如果结果优于预期,则期权价值增加,而在相反的情况下,期权价值减少,并且在正、中性和负预测误差之后,更新的幅度相似。3.2.2.

15
nandehutu2022 在职认证  发表于 2022-6-24 07:06:23
更新规则修改后的Q-学习算法(RW±)的更新规则由(Lefebvre et al.,2017)Qπ(st+1,at+1)=Qπ(st,at)给出+α+δ(t)如果δ(t)>0,α-δ(t)如果δ(t)<0。(10) 当预测误差为正时,这意味着实际回报率(st,at,st+1)优于预期回报率qπ(st,at),学习率α+调整RW±模型的振幅允许更新的振幅不同,接下来是积极的(好环境情绪化新闻)和消极的(坏环境情绪化±积极和消极体验)。此外,给定Q值,执行softmax规则的相关策略如下:π(st)=e(Qπ(st,at)β)/e(Qπ(st,at)β)+e(Qπ(st,at)β),(11) 其中β是一个调整决策随机性的标度参数,用于控制勘探开发权衡。(11) 是基于关联值的一组选项的标准随机性。ICML 2019Critic NetworkActor网络的提交和格式说明图4。学习网络架构。3.3. 自适应DDPG我们使用自适应DDPG算法来最大化投资回报。DDPG是确定性策略梯度(DPG)算法的改进版本,DPG基于策略梯度(PG)改进。对于DDPG,Q-learning使用贪心操作在+1处最大化Q(st+1,at+1),状态st+1如下Qπ(st,at)=Est+1r(st,at,st+1)+γmaxat+1Q(st+1,at+1). (12) 如图4所示,自适应DDPG包括一个actornetwork和一个Critical network。

16
何人来此 在职认证  发表于 2022-6-24 07:06:26
参与者网络u(s |θu)将状态映射到动作,在预测误差δ(t)可用后,评论家网络随后更新ESQs、 a |θQ根据预测误差δ(t)和学习率α+(或α-), 其中θu是参与者网络参数集,θQis是评论家网络参数集。N+和N-是分别对应于正环境和负环境的随机过程,用于向参与者网络的输出添加噪声以探索动作。与DDPG类似,我们的模型根据预测误差δ(t)和takesan ActionAtost使用经验replayRdatesQ(s,a),然后根据t+1获得奖励。然后计算i=ri+γQ(si+1,u(si+1 |θu,θQ)),i=1。。。,N、 然后将转换(st、at、st+1、rt)存储在重播缓冲区中。在从r中提取出一个示例转换后,我们通过最小化期望的difL(θQ)Q和评论家网络Q来更新评论家网络。在通过来自经验缓冲区的转换更新评论家网络和演员网络后,目标演员网络和目标评论家网络更新如下:θQ← τθQ+(1- τ)θQ,(13)θu← τθu+ (1 - τ)θu,(14),其中τ表示学习速率。2014年2月1日2015年3月20日2016年9月5日2017年7月27日2018年2月10日日期15000175002025000225000价格市场指数学习率图5。测试期间的市场指数数据和相应的学习率。4、性能评估本节评估自适应DDPG算法的性能。结果表明,自适应的道琼斯工业平均值(DJIA)和传统的投资组合分配策略。4.1. 数据预处理和比较方法是我们的股票库。数据(每日价格)的时间跨度为2001年1月1日至2018年9月30日。数据集从通过沃顿研究数据服务(WRDS)访问的Compustat数据库下载。

17
能者818 在职认证  发表于 2022-6-24 07:06:29
2001年1月1日至2013年12月30日(包括3268个交易日)的数据集用作培训数据,其余数据集(2014年2月1日至2018年2月10日,包括1190个交易日)用作代理的测试数据表现。相应的学习率,即我们设置α+=1和α-= 我们把n+设为正常的随机过程n-作为一个随机过程,只会产生负值。我们使用30只股票的每日价格数据来训练自适应DDPG代理。然后,我们在测试数据上运行代理,并将其性能与vanilla DDPG、DJIA以及最小方差和均值方差投资组合分配策略进行比较。我们使用最终投资组合价值、年化回报率、年化标准误差和夏普比率来评估所提出的方法。最终投资组合价值反映了在一定时间范围内投资的总体效果。年化收益率是货币的几何平均金额。年化标准误差反映了波动性,并显示了模型的稳健性。夏普比率(单位波动率收益率)用于评估投资组合绩效(夏普,1994)。ICML 201901/02/2014 08/11/2014 03/20/2015 10/30/2015 05/09/2016 12/19/2016 07/27/2017 03/01/2018 10/02/2018日期10000120001400011600018000200022000投资组合价值Adaptive DDPG DDPG DJIAMin Var Mean VarFigure 6。提出的自适应DDPG和传统方法的投资组合分配收益。方法自适应DDPG DDPG DJIA最小方差平均方差初始值10000 10000 10000 10000最终值21880 18156 16089 16333 19632年化收益率18.84%14.71%11.36%11.48%15.86%年化标准误差11.59%14.68%12.43%11.64%12.70%Sharpe比率1.63 1.01 0.91 0.99 1.25表1。交易业绩。4.2.

18
可人4 在职认证  发表于 2022-6-24 07:06:32
绩效结果图6显示,自适应DDPG模型明显优于道琼斯工业公司的香草DDPG模型。我们可以看到,DDPG策略优于道琼斯工业平均指数和传统的投资组合配置策略。年化收益率为18.84%,远高于香草DDPG的14.71%,道琼斯工业平均指数的11.36%,最小方差和和15.86%。adaptiveDDPG策略的年化夏普比也较高,表明adaptiveDDPG策略优越。因此,结果表明,自适应DDPG策略可以有效地开发出优于vinilla DDPG、基准道琼斯工业平均指数和传统投资组合分配方法的匹配策略。结论适用于portfolioallocation任务的策略梯度(AdaptiveDDPG)方案。自适应DDPG结合了乐观或悲观的深度强化学习,根据正预测误差或负预测误差,允许更新的幅度不同。基于道琼斯股票的实验结果表明,所提出的自适应DDPG模型可以在不同的市场条件下获得更好的投资组合配置策略。投资组合回报结果表明,基于我们的自适应DDPG,投资回报可以显著提高。未来的工作将是探索更高级的模型和处理更大规模的数据(Burda et al.,2019)方案(Li et al.,2019),并提高机器学习算法的鲁棒性(Yang et al.,2018)。我们还想进行一些文本分析,例如提取文本模型进行分析(Hu等人,2018)。参考Bao,W.和Liu,X.-Y.Multi-agent deep EnforcementShop on Applications and Infrastructure for Multi-AgentLearning,2019年。ICML 2019和Efros,A.A.的提交和格式说明。

19
何人来此 在职认证  发表于 2022-6-24 07:06:35
好奇心驱动学习的大规模研究。ICLR,2019年。wise linear representation method and a neural Networks on Systems,Man,and Controlnetics,Part C(Applications and Reviews),39(1):80–922009。Flannery,M.J.和Protopadakis,A.A.宏观经济因素确实影响股票总回报。《金融研究评论》,15(3):751–7822002。Hu,Z.,Liu,W.,Bian,J.,Liu,X.,和Liu,T-Y.《倾听混沌耳语:面向新闻的股票趋势预测的深度学习框架》。《数据挖掘和数据挖掘学报》,第261-269页。ACM,2018年。Konda,V.R.和Tsitsiklis,J.N.演员评论家算法。《神经信息处理系统的进展》,第1008–10142000页。Lefebvre,G.、Lebreton,M.、Meyniel,F.、Bourgeous Gironde,S.和Palminteri,S.《行为和神经特征行为》,1(4):00672017。Li,Q.,Wang,T.,Li,P.,Liu,L.,Gong,Q.,和Chen,Y.信息科学,278:826–8402014。Li,X.,Li,Y.,Liu,X-Y.,和Wang,C.《通过异常规避进行风险管理:记忆深度学习形成术语股票预测》。在KDD金融异常检测研讨会上,2019年。Lillicrap,T.P.、Hunt,J.J.、Pritzel,A.、Heess,N.、Erez,T.、Tassa,Y.、Silver,D.和Wierstra,D.通过深度强化学习进行持续控制。arXiv预印本XIV:1509.029712015。投资组合理论。《全球商业研究杂志》,7(1):59–702013年。Markowitz,H.《投资组合选择》。《金融杂志》,7(1):77–911952年。现代投资组合理论:为什么它仍然流行。investopedia,2010年。Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.、Graves,A.、Riedmiller,M.、Fidjeland,A.K.、Ostrovski,G.等人,《人体水平控制》,5292015年。Morien,T.Travis Morien财务顾问。检索到onMPT批评。,12(18):11.Neuneier,R.为优化资产配置增强Q学习。

20
可人4 在职认证  发表于 2022-6-24 07:06:38
《神经信息处理系统的进展》,第936–942页,1998年。Saad,E.W.,Prokhorov,D.V.,和Wunsch,D.C.《神经网络的合作》,9(6):1456–14701998年。夏普,W.F.夏普比率。《投资组合管理杂志》,21(1):49–581994年。Sharpe,W.F.和Sharpe,W.投资组合理论和资本市场,第217卷。麦格劳·希尔,纽约,1970年。Xiong,Z.,Liu,X-Y.,Zhong,S.,Yang,H.,和Walid,A.股票交易的实用深度强化学习方法。《神经信息处理系统进展》,2018年。Yang,H.,Liu,X-Y.,和Wu,Q.一种实用的动态股票推荐机器学习方法。InIEEE国际信任、安全和隐私会议(TrustCom),第1693-1697页。IEEE,2018年。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 09:54