楼主: mingdashike22
1292 9

[量化金融] 一种实用的股票交易深度强化学习方法 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8216
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-11 04:09:35 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Practical Deep Reinforcement Learning Approach for Stock Trading》
---
作者:
Zhuoran Xiong, Xiao-Yang Liu, Shan Zhong, Hongyang Yang, and Anwar
  Walid
---
最新提交年份:
2018
---
英文摘要:
  Stock trading strategy plays a crucial role in investment companies. However, it is challenging to obtain optimal strategy in the complex and dynamic stock market. We explore the potential of deep reinforcement learning to optimize stock trading strategy and thus maximize investment return. 30 stocks are selected as our trading stocks and their daily prices are used as the training and trading market environment. We train a deep reinforcement learning agent and obtain an adaptive trading strategy. The agent\'s performance is evaluated and compared with Dow Jones Industrial Average and the traditional min-variance portfolio allocation strategy. The proposed deep reinforcement learning approach is shown to outperform the two baselines in terms of both the Sharpe ratio and cumulative returns.
---
中文摘要:
股票交易策略在投资公司中起着至关重要的作用。然而,在复杂、动态的股票市场中,如何获得最优策略是一个挑战。我们探索深度强化学习的潜力,以优化股票交易策略,从而实现投资回报最大化。我们选择了30只股票作为交易股票,并将其每日价格用作培训和交易市场环境。我们训练了一个深度强化学习代理,并获得了一个自适应的交易策略。对代理人的绩效进行了评估,并与道琼斯工业平均指数和传统的最小方差投资组合分配策略进行了比较。所提出的深度强化学习方法在夏普比率和累积收益方面均优于两条基线。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Practical_Deep_Reinforcement_Learning_Approach_for_Stock_Trading.pdf (388.79 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:股票交易 学习方法 Quantitative Applications environment

沙发
nandehutu2022 在职认证  发表于 2022-6-11 04:09:39
股票交易的实用深度强化学习方法*, 刘晓阳*, 单忠*, Hongyang(Bruce)Yang+,和Anwar Walid+*哥伦比亚大学电气工程部,+哥伦比亚大学统计系,+系统数学研究部,诺基亚贝尔实验室:{ZX2214,XL2427,SZ2495,HY2500}@哥伦比亚。埃杜,安瓦尔。walid@nokia-贝尔实验室。在复杂、动态的股票市场中,寻求最优策略是一个挑战。我们探索深度强化学习的潜力,以优化股票交易策略,从而实现投资回报最大化。股票被选为我们的交易股票,其每日价格被用作培训和交易市场环境。我们训练了一个深度强化学习代理,并获得了一个自适应的交易策略。对代理的性能进行了评估,并与道琼斯工业平均指数和传统的最小方差投资组合分配策略进行了比较。所提出的深度强化学习方法在夏普比和累积收益率方面均优于两条基线。1引入资本,从而最大化绩效,如预期回报。收益最大化是基于对股票潜在收益和风险的估计。然而,对于分析师来说,在复杂的股市中考虑所有相关因素是一个挑战[1-3]。一种传统方法分两步执行,如[]所述。首先,计算股票的预期收益和股票价格的协方差矩阵。最佳的投资组合配置是通过最大化投资组合固定风险的回报或最小化一系列回报的风险来找到的。然后,通过遵循最佳投资组合分配来提取最佳交易策略。

藤椅
何人来此 在职认证  发表于 2022-6-11 04:09:42
然而,如果管理者想要修改在每个时间步做出的决策,并将交易成本等因素考虑在内,那么这种方法的实施可能会非常复杂。解决股票交易问题的另一种方法是将其建模为马尔可夫决策过程(MDP),并使用动态规划来求解最优策略。然而,由于在处理股票市场时存在较大的状态空间,该模型的可扩展性受到限制[5–8]。基于上述挑战,我们探索了一种深度强化学习算法,即深度确定性政策梯度(DDPG)[],以在复杂动态的股票市场中找到最佳交易策略。该算法由三个关键组件组成:(i)actor-Critical框架[],用于建模大型状态和动作空间;(ii)稳定培训过程的目标网络[];(iii)体验重播,消除样本之间的相关性,增加usageNIPS 2018金融服务业人工智能挑战与机遇研讨会:公平、可解释性、准确性和隐私的影响,加拿大蒙特勒尔。这是一份非档案出版物-作者可以将本文的修订和扩展提交给其他出版物。的数据。DDPG算法的有效性通过实现高于的回报来证明。本文组织如下。第2节包含我们股票交易问题的陈述。第3节,我们驱动并指定主要的DDPG算法。第四节描述了我们的数据预处理和实验装置,并介绍了DDPG算法的性能。第5节给出了我们的结论。2问题陈述我们将股票交易过程建模为马尔可夫决策过程(MDP)。然后,我们将交易目标表述为最大化问题。2.1股票交易过程作为马尔可夫决策过程(MDP)的问题公式,如图。

板凳
nandehutu2022 在职认证  发表于 2022-6-11 04:09:45
1,具体如下:o状态=【p、h、b】:包含股票价格信息的集合∈ RD+,股票持有量∈ ZD+,剩余余额B∈ R+,其中,我们在市场上考虑的股票数量,Z+表示非负整数Actiona:所有存储上的一组操作。每只股票的可用行为包括出售、购买和持有,这分别导致持有量的减少、增加和不变报酬(s、a、s):当在各州采取行动时,投资组合价值的变化,以及SPT和余额b。o政策π(s):各州的股票交易策略。它本质上是一个at状态s的概率分布。Qπ(s,a)asing policyπ。股票市场的动态描述如下。我们使用下标来表示timet,对库存d的可用操作是o卖出:k(k∈ [1,h[d],其中d=1。。。,D) 可以从当前持有的股份中出售股份,其中k必须是整数。在这种情况下,ht+1=ht- k、 o保持:k=0,不会导致ht发生变化。okht+1=ht+kat【d】=-捏合整数。应该注意的是,所有购买的股票不应导致portfoliovalue出现负余额。也就是说,在不丧失一般性的情况下,我们假设销售订单是在FirstDattPT[1:d]Tat[1:d]+bt+pt[d]上完成的-d: d]Tat[d-d: d]≥ 0、余额更新为bt+1=bt+PTAT。图1示出了该过程。如上所述,投资组合价值由时间(t+1)的余额和sumt1、“投资组合价值2”或“投资组合价值3”组成。在暴露于环境之前,PI设置为时间的股票价格,并在任何状态的所有行动中取初始HQπ(s,a)π(s)。

报纸
何人来此 在职认证  发表于 2022-6-11 04:09:48
然后,通过与外部环境交互来学习Qπ(st,at)。道琼斯工业平均指数是一个股票市场指数,显示了30家总部位于美国的大型上市公司在股票市场的标准交易时段的交易情况。图1:如果股票价格发生变化,一个开始的投资组合价值和三个动作会导致三个可能的投资组合价值。A预期奖励r(st、at、st+1)加上下一状态st+1的预期奖励。基于收益按γ因子折现的假设,我们得到qπ(st,at)=Est+1[r(st,at,st+1)+γEat+1~π(st+1)[Qπ(st+1,at+1)]]。(1) 2.2作为回报最大化的交易目标目标是设计一种交易策略,使投资回报在未来的目标时间T最大化,即pTtfht+btf,也相当于TF-1t=1r(st、at、st+1)。由于MarkovfunctionQπ(st,at)。这个问题很难解决,因为政策制定者不知道行动价值函数,必须通过与环境交互来学习。因此,本文采用深度强化学习方法来解决这一问题。3深度强化学习方法我们使用DDPG算法来最大化投资回报。DDPG是确定性策略梯度(DPG)算法的改进版本[]。DPG结合了bothQ learning[]和policy gradient[]的框架。与DPG相比,DDPG采用神经网络作为函数逼近器。本节中的DDPG算法适用于股票交易市场的MDP模型。Q(st+1,at+1)为了更新eq(st,at),Q-learning使用贪婪的actionat+1来最大化状态ss+1的Q(st+1,at+1),即Qπ(st,at)=Est+1[r(st,at,st+1)+γmaxat+1Q(st+1,at+1)]。(2) 状态用值函数编码。

地板
大多数88 在职认证  发表于 2022-6-11 04:09:51
然而,DQN方法对于这个问题是难以解决的,考虑到总库存的数量,行动空间的大小呈指数增长,导致MAP州采取行动来解决这个问题。如图2所示,DDPG维护演员网络和评论家网络。参与者网络u(s |θu)将状态映射到动作,其中θu是参与者网络参数集,临界值(s,a |θQ)θQ从随机过程N中采样。与DQN类似,DDPG使用体验重播缓冲区来存储转换和更新模型,并且可以有效地减少体验样本之间的相关性。目标参与者网络图2:学习网络架构。算法1 DDPG算法1:使用随机权重θQandθu随机初始化评论家网络Q(s,a |θQ)和演员u(s |θu);2: 使用权重θQ初始化目标网络Qandu← θQ,θu← θu;3: 初始化重播缓冲区R;4: 对于插曲=1,M do5:初始化一个随机过程N以进行动作探索;6: 接收初始观测状态s;7: 对于t=1,t do8:根据当前政策和勘探噪声,选择行动at=u(st |θu)+nta;9: 执行操作At并观察奖励Rt和状态st+1;10: 在R中存储转换(st、at、rt、st+1);11: 从R中随机抽取一小批N个跃迁(si、ai、ri、si+1);12: 设置yi=ri+γQ(st+1,u(si+1 |θu|θQ));13: 通过最小化损失更新评论家:L=NPi(yi- Q(si,ai |θQ));14: 使用采样的策略渐变更新参与者策略:θuJ≈NXi公司aQ(s,a |θQ)| s=si,a=u(si)θu(s |θu)| si;15: 更新目标网络:θQ← τθQ+(1- τ) θQ,θu← τθu+ (1 - τ)θu.16: end for17:end forQandu分别通过复制actor和Critical网络创建,以便它们提供一致的时差备份。这两个网络都是迭代更新的。每次,DDPG代理都会执行一项任务,然后根据任务+1获得奖励。

7
能者818 在职认证  发表于 2022-6-11 04:09:54
然后将转换(st、at、st+1、rt)存储在重播缓冲区中。然后从Randyi=ri+γQ(si+1,u(si+1 |θu,θQ)),i=1,计算··,N得出样品跃迁。然后,通过最小化目标评论家网络Q和评论家网络Q的输出之间的期望差值L(θQ),即L(θQ)=Est、at、rt、st+1,来更新评论家网络~缓冲液[(rt+γQ(st+1,u(st+1 |θu)|θQ)- Q(st,在|θQ))]。(3) 参与者网络的参数θu如下所示:θuJ≈ Est、at、rt、st+1~缓冲区[θuQ(st,u(st |θu)|θQ)](4)=Est,at,rt,st+1~缓冲区[aQ(st,u(st)|θQ)θu(st |θu)]。(5) 通过experiencebuffer的转换更新评论家网络和演员网络后,目标演员网络和目标评论家网络更新如下:θQ← τθQ+(1- τ) θQ,(6)θu← τθu+ (1 - τ) θu,(7),其中τ表示学习速率。算法1.4性能评估中总结了详细的算法。我们评估了Alg中DDPG算法的性能。1、结果表明,与道琼斯工业平均指数和传统的最小方差投资组合分配策略相比,采用DDPG代理的推荐方法获得了更高的回报【16,17】。图3:数据拆分。4.1数据预处理我们跟踪并选择2016年1月1日的道琼斯股票(Dow Jonesstocks)作为我们的交易股票,并使用2009年1月1日至2018年9月30日的历史每日价格来培训代理人并测试其表现。数据集为[18]。我们的实验包括三个阶段,即培训、验证和交易。在培训阶段,Alg。1生成训练有素的交易代理。然后对关键参数进行验证阶段,如学习率、事件数等。最后,在交易阶段,我们评估拟议方案的可行性。为了达到这些目的,整个数据集被分为三个部分,如图3所示。

8
nandehutu2022 在职认证  发表于 2022-6-11 04:09:57
2009年1月1日至2014年12月31日的数据用于培训,2015年1月1日至2016年1月1日的数据用于验证。我们对代理商进行培训和验证数据培训,以充分利用可用数据。最后,我们测试了我们的代理人在交易阶段控制代理人的表现,因为这将提高代理人更好地适应市场动态。4.2对股票交易DDPG代理的实验设置和结果进行培训。为了更新学习率和事件数,在行业平均(DJIA)和最小方差投资组合分配策略上验证代理。四个指标用于评估我们的结果:最终投资组合价值、年化回报、年化标准误差和夏普比率。最终投资组合价值反映了交易阶段结束时的投资组合价值。年化回报表示投资组合每年的直接回报。年度化标准给出了此类评估【19】。在图4中,我们可以看到,DDPG策略显著优于道琼斯工业平均年化回报率22.24%,远高于道琼斯工业平均年化回报率16.40%和最小方差投资组合配置年化回报率15.93%。DDPG策略的夏普比率也是平衡风险和回报的多投资组合分配。因此,结果表明,所提出的DDPG策略可以有效地开发出优于基准道琼斯工业平均指数和传统最小方差投资组合分配方法的交易策略。道琼斯工业平均指数。(初始投资组合价值10000美元)。表1:交易业绩。DDPG(我们的)最小方差DJIA初始投资组合值10000 10000最终投资组合值19791146951428年化回报率25.87%15.93%16.40年化标准误差13.62%9.97%11.70%Sharpe比率1.79 1.45 1.275结论了解股票交易策略。

9
何人来此 在职认证  发表于 2022-6-11 04:10:00
结果表明,我们训练的代理人在累积收益方面优于道琼斯工业平均和最小方差投资组合分配方法。夏普比率的比较表明,我们的方法在平衡风险和回报方面比其他方法更稳健。未来的工作将是探索更复杂的模型[],处理更大规模的数据[],观察智能行为[22],并结合预测方案[23]。参考文献[1]Stelios D.Bekiros,“投机股票市场中有界理性交易者的模糊自适应决策”,《欧洲运筹学杂志》,第202卷,第285-2932010页。[2] 计算经济学,第50卷,第1期,第141-1592017页。[3] 《利用粗糙集和遗传算法发现期货市场的交易规则》,《应用软件计算》,第55卷,第127-140页,2017年。[4] Markowittz,H.,“投资组合选择”,《金融杂志》,第7卷,第1期,第77-911952页。[5] Dimitri Bertsekas,“动态规划和最优控制”,雅典娜科学出版社,第1卷,1995年。[6] 《金融交易:介绍与应用》,《Promedia Economics and Finance》,第3卷,第68-77页,2012年。[7] 信息处理系统,第8卷,1996年。[8] 处理系统,1997年。[9] Timothy P.Lillicrap、Jonathan J.Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa,arXiv:1509.029712015。[10] Vijay R.Konda和John Tsitiklis。“演员-评论家算法”,神经信息处理系统进展,第1008-10141999页。[11]2015.[12] David Silver、Guy Lever、Nicolas Heess、Thomas Degris、Daan Wierstra、Martin Riedmiller,“确定性策略梯度算法”,国际机器学习会议,第32卷,2014年。[13] Richard S.Sutton和Andrew G.Barto,《强化学习:导论》,麻省理工学院出版社。1998年【14】Richard S.Sutton等人。

10
nandehutu2022 在职认证  发表于 2022-6-11 04:10:02
“函数逼近强化学习的策略梯度方法”,神经信息处理系统进展,2000年。[15] Lucian Bu,soniu、Tim de Bruin、Domagoj Toli\'c、Jens Kober、Ivana Palunko,“2018年强化学习。[16]“最小方差投资组合分配代码,”http://www.tensorlet.com/.[17] 杨洪阳,刘晓阳,吴庆伟,“动态股票推荐的实用机器学习方法”,IEEE计算与通信中的信任、安全和隐私国际会议,2018年。[18] Compustat Industrial[每日数据]。可用:标准普尔/Compustat【2017年】。检索自“WhartonResearch数据服务”,2015年。[19] Willia F.Sharpe,“Sharpe比率”,《投资组合管理杂志》,第1卷,第1、21、49-58期,1994年。[20] 王璐,张伟,何晓峰,查宏远,“基于递归神经网络的监督强化学习用于动态治疗推荐”,知识发现与数据挖掘国际会议,第2447-24562018页。[21]Yuri Burda、Harri Edwards、Deepak Pathak、Amos Storkey、Trevor Darrell、Alexei A.Efros,“好奇心驱动学习的大规模研究”,arXiv:1808.043552018。[22]刘晓阳,丁子汉,Sem Borst,Anwar Walid,“Intelligent 2018的深度强化学习。[23]张量时间序列分析系统”,NeurIPS时空域建模和决策研讨会,2018年。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 01:29