楼主: mingdashike22
1033 19

[量化金融] 乐观牛市或悲观熊市:适应性深度强化 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
73.8216
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-24 07:05:36 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Optimistic Bull or Pessimistic Bear: Adaptive Deep Reinforcement
  Learning for Stock Portfolio Allocation》
---
作者:
Xinyi Li, Yinchuan Li, Yuancheng Zhan, Xiao-Yang Liu
---
最新提交年份:
2019
---
英文摘要:
  Portfolio allocation is crucial for investment companies. However, getting the best strategy in a complex and dynamic stock market is challenging. In this paper, we propose a novel Adaptive Deep Deterministic Reinforcement Learning scheme (Adaptive DDPG) for the portfolio allocation task, which incorporates optimistic or pessimistic deep reinforcement learning that is reflected in the influence from prediction errors. Dow Jones 30 component stocks are selected as our trading stocks and their daily prices are used as the training and testing data. We train the Adaptive DDPG agent and obtain a trading strategy. The Adaptive DDPG\'s performance is compared with the vanilla DDPG, Dow Jones Industrial Average index and the traditional min-variance and mean-variance portfolio allocation strategies. Adaptive DDPG outperforms the baselines in terms of the investment return and the Sharpe ratio.
---
中文摘要:
投资组合分配对投资公司至关重要。然而,在一个复杂而动态的股票市场中获得最佳策略是一项挑战。在本文中,我们针对投资组合分配任务提出了一种新的自适应深度确定性强化学习方案(Adaptive DDPG),该方案融合了乐观或悲观的深度强化学习,反映在预测误差的影响上。我们选择道琼斯30成分股作为交易股票,并将其每日价格作为培训和测试数据。我们训练了自适应DDPG代理,并获得了一个交易策略。将自适应DDPG的性能与香草DDPG、道琼斯工业平均指数以及传统的最小方差和均值方差投资组合分配策略进行了比较。自适应DDPG在投资回报和夏普比率方面优于基线。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--

---
PDF下载:
--> Optimistic_Bull_or_Pessimistic_Bear:_Adaptive_Deep_Reinforcement_Learning_for_St.pdf (1.97 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:适应性 Econophysics Quantitative Applications Statistical

沙发
kedemingshi 在职认证  发表于 2022-6-24 07:05:42
乐观牛市或悲观熊市:股票投资组合配置的自适应深度强化学习李欣怡*1银川*2元城詹晓阳。然而,在复杂而动态的股票市场中获得最佳策略是一项挑战。在本文中,我们为投资组合分配任务提出了一种新的自适应深度确定性强化学习方案(Adaptive DDPG),该方案结合了乐观或悲观的深度强化学习,这种学习会受到预测错误的影响。我们选择道琼斯成分股票作为交易股票,并将其每日价格作为培训和测试数据。我们对自适应DDPGagent进行训练,得到一种交易策略。将自适应DDPG的性能与香草DDPG、道琼斯工业平均指数以及传统的最小方差和均值方差投资组合分配策略进行了比较。AdaptivedPG在投资回报和夏普比率方面优于基线。1、简介投资组合配置在金融市场中扮演着重要角色,这对于投资公司和定量分析师来说是基础和重要的。著名经济学家哈里·马科维茨(HarryMarkowitz)因其对金融经济学和企业金融的开创性理论贡献,获得了1990年诺贝尔经济学奖(Nobel Memorial Pricein Economic Sciences)。他的创新工作为现代投资组合理论(MPT)奠定了基础(Sharpe&Sharpe,1970),即构建一个投资组合,以最大化预期回报,同时最小化投资风险。

藤椅
何人来此 在职认证  发表于 2022-6-24 07:05:45
投资组合理论研究如何*平等贡献纽约哥伦比亚大学统计系、纽约哥伦比亚大学电子工程系、美国信息与电子学院、北京理工大学、中国科学技术大学电子工程与信息科学系、中国合肥。通信收件人:尹传利<yl3923@columbia.edu>.《机器学习国际会议论文集》,加利福尼亚州长滩,PMLR 972019年。作者版权所有2019。“理性投资者”优化他们的投资组合。理性投资者可以在给定的预期风险水平下最大化预期回报,或者在给定的预期回报水平下最小化预期风险。投资的本质是利益与不确定性风险之间的脱节。投资组合配置的目标是,要么最大化夏普比率(平均回报率减去无风险回报率除以标准差),要么最小化风险,以表征这两个关键因素。平均值是指预期收益的加权平均值,权重是投资的分配比例。方差是指投资组合预期收益的方差。我们参考描述投资组合风险的。传统方法分两步进行,如(Markowitz,1952)所述。首先,计算股票的预期收益和股票价格的协方差矩阵。然后根据投资组合分配提取交易策略。然而,传统投资组合分配的挑战在于,如果管理者想要修改每次做出的决策和风险规避,那么该方法的实施可能会非常复杂。

板凳
nandehutu2022 在职认证  发表于 2022-6-24 07:05:48
例如,投资公司渴望获得更高的回报,而风险在于金融市场在许多方面与现实世界不一致(Mangram,2013)。一般来说,一些关键的批评包括:投资者的非理性、高风险是股票投资组合配置的强制学习。作为马尔可夫决策过程(MDP)的Existi和ICML 2019DP算法的动态提交和格式化指令的使用限制了实际用途,因为它们是一个完美的模型,而且计算量也很大。与股票市场打交道时。强化方法使用函数逼近器和随机逼近来计算相关预期,可应用于具有大连续状态空间政策梯度(DDPG)的问题(Lillicrap et al.,2015)(Xiong et al.,2018)(Bao&Liu,2019),以在复杂和动态的股票市场中找到最佳交易策略。我们采用了DDGP算法,该算法由三个关键组件组成:(i)演员-评论家框架(Konda&Tsitsiklis,2000),用于模拟大型状态和动作空间;(ii)稳定培训过程的目标网络(Mnihet al.,2015);(iii)经验重演,删除相关性方法和道琼斯工业平均指数。此外,所提出的深度强化学习方案考虑了市场指数的影响,这在实践中非常有意义。因为基于机器学习的方法比交易者基于市场的决策更客观、更定量。行为金融的理论研究表明,环境可以影响投资决策。正如行为金融所断言的那样,投资者可能乐观而悲观(Li等人,2014)。一般来说,熊市发生在经济衰退或萧条期间,当时悲观情绪不断出现。

报纸
能者818 在职认证  发表于 2022-6-24 07:05:51
当证券价格的上涨速度超过总体平均利率时,就会出现牛市。牛市伴随着经济增长和投资者模型(Lefebvre et al.,2017),它可以从积极和消极的环境中学习不同的东西,可以计算选择不同选项(买入、持有和卖出)的回报。该模型可以在预测误差为正(实际奖励优于预期奖励)的情况下调整变化幅度,然后学习率会在一次试验到下一次试验之间调整幅度。该模型可以区分好的环境反馈和坏的环境反馈。此外,我们分别提出了乐观和悲观的反叛市场和牛市。本文提醒如下。第二部分介绍了股票组合配置的背景。在第3节中,我们驱动并指定了主要的DDPG算法和乐观-悲观深度强化学习。第四节介绍了数据预处理、实验装置以及自适应DDPG模型的性能。第5节给出了我们的结论。2、股票投资组合分配问题表在本节中,我们介绍了投资组合分配模型、市场环境对股票的影响以及股票交易策略。2.1. 投资组合分配2.1.1。投资组合配置本文讨论的投资组合理论是狭义定义的。在发达的证券市场,马科维茨的运动组合理论在实践中被证明是有效的,并被广泛应用于投资组合选择和资产配置。该理论包括两个重要部分:1)均值方差分析方法;2) 投资组合效率更高。具体而言,优化的投资组合是以波动率为横坐标、收益率为纵坐标的二维平面,形成曲线。

地板
kedemingshi 在职认证  发表于 2022-6-24 07:05:54
该曲线上有一个波动率最低的点,称为最小方差点(MVP)。Markowitz投资组合有效边界的部分,以及相应的投资组合称为有效投资组合。投资组合的有效前沿是一条单调递增的凸曲线。然而,由于传统的有效市场假说无法解释市场异常,投资组合理论受到了行为金融理论的挑战。2.1.2. 传统方法为不同风险水平的投资者提供了两种基本的投资组合分配方法。第一种方法是使用适合于偏好更高利差比率的投资者的平均值。第二种是最小方差投资组合,对投资者来说风险最低。均值方差法:Markowitz的工作(Sharpe&Sharpe,1970)表明,对投资者来说重要的不是证券本身的风险,而是证券对整个投资组合方差的贡献。这源于投资组合回报率方差(σp)与其组成证券回报率方差(σi,i=1,2,m)之间的关系。计算ICML 20190的年化收益率upand协方差提交和格式说明。0.30 0.35 0.40 0.45 0.50风险(预期波动率)-0.8-0.6-0.4-0.20.00.20.40.6预期收益最大夏普比率最小方差和投资组合有效前沿-2.0-1.5-1.0-0.50.00.51.0夏普比率0.15 0.20 0.25 0.30风险(预期波动率)0.40.60.81.21.41.6returnMaximum Sharpe Ratiomimum varianceRandom Portfolio有效前沿3.03.54.04.55.05.5图1的Sharpe Ratio。

7
mingdashike22 在职认证  发表于 2022-6-24 07:05:57
投资组合分配:(a)2009年5月1日至2009年3月31日(金融危机期间);(b) 2009年1月4日至2009年6月25日(金融危机后)。矩阵∑pas如下所示:up=E(rp)=mXi=1wiE(ri)=WTu,(1)σp=mXi,j=1wiwjσi,j=WT∑pW,(2)其中mis是股票数量,wii是i thstock的权重,即投资组合百分比。σij是平均方差的协变量:wi∈ [0,0.2],i=1。。。,m;mXi=1wi=1,(3),其中0和0.2是分配权重的下限和上限。我们的目标函数是找到使锐利率最高的分配(图1中的红星组合)。最小方差法:最小方差法与平均方差法相似方差最小的投资组合(图1中的绿星投资组合)。因此,持有证券的决定不应取决于其他股票,而应取决于投资者想要持有的其他股票。库存应作为agroup进行适当评估,而不是单独评估。2.1.3. 现代投资组合理论的局限性o假设1:投资者是理性的。MPT假设投资者是理性的,寻求最大化回报,同时最小化风险。这与参与羊群行为投资活动(Morien)的市场参与者的观察结果相矛盾。例如,投资者经常选择热门股,由于投机行为过度,市场往往经历繁荣或萧条。大型股票市场的趋势往往以非理性的小规模羊群行为开始和结束,这种行为是由泡沫中的贪婪情绪和崩溃中的恐惧所驱动的。即使羊群行为可能很少见,但这对整个真实市场都有重要影响假设2:市场是有效的。马科维茨理论假设市场完全有效(马科维茨,1952)。相比之下,它没有考虑潜在的市场失灵,例如informationmarket远远不够有效。

8
nandehutu2022 在职认证  发表于 2022-6-24 07:06:00
在一定程度上利用市场指数解决无效问题。o假设3:投资是独立的。MPT假设选择个人表现独立于其他证券的证券。然而,在市场压力和极端不确定性的情况下,看似独立的投资实际上显示出相关性。市场历史证明,没有这样的工具(McClure,2010)。股票和市场不能分开,必须考虑市场环境对股票的影响。MPT在忽略环境、个人、战略或社会因素的同时,寻求最大化风险调整后的回报。历史“预期值”假设通常无法考虑历史数据期间不存在更新的环境。ICML 20192.2的提交和格式说明。市场环境股票的市场价格由股票的价值决定,但同时也受到许多其他因素的影响。一般来说,影响股票市场价格的因素主要包括以下两个方面:o宏观经济因素:宏观经济环境及其变化对股票市场宏观经济运行的影响和政府的政策(Flannery&Protopadakis,2002)。股票市场是整个金融市场体系的重要组成部分。所以,股票市场的股票价格自然会随着宏观经济条件的变化而变化。例如,一般而言,股票价格随国民生产总值的涨跌而变化市场因素:各种股票市场操作可能出现熊市、卖空和卖空、追逐和杀市,投资者意愿更加激进,股票价格将上涨。相反,如果卖空行为盛行,投资者不知所措,股票价格就会下跌。

9
大多数88 在职认证  发表于 2022-6-24 07:06:03
由于各种股票市场操作主要是短期行为,市场因素对股票市场价格的影响具有明显的短期性质。为了说明市场整体环境对投资组合的影响,我们比较了金融危机结束前后三个月的投资组合策略。股票池是道琼斯30指数。图1(a)描绘了金融危机期间的投资组合配置,图1(b)描绘了这两个图,我们发现在金融危机中,波动性状态;金融危机后,经济开始复苏,投资组合波动性相对较低,回报较高。应用强化学习的一个新兴领域是股票市场交易,其中交易者的行为类似于代理人,因为买卖是特殊的行为。回报是股票通过产生利润或亏损来改变交易者的状态。2.3. 马尔可夫决策过程公式化MDP对于强化学习尤为重要。特定的MDP由其状态和行动集以及环境的一步动态确定。给定任何状态和动作,每个可能的下一状态的概率如下:pass=Pr{st+1=s | st=s,at=a}。(4) 这些量被称为转移概率。类似地,下一个奖励的预期值是lass=E{rt+1 | st=s,at=a,st+1=s}。(5) TitiesPassandrass详细说明了有限MDP动态的最重要方面。2.4. 相关强化学习方法如引言所述,DDPG主要由:PG(政策梯度)发展而来→DPG(确定性策略梯度)→DDPG(深层确定性策略梯度)。接下来,我们将介绍这一演变过程,以在复杂而动态的股票市场中制定战略。3、自适应深度强化学习我们将股票交易过程建模为MDP。

10
能者818 在职认证  发表于 2022-6-24 07:06:07
然后,我们将交易目标表述为最大化问题。在以下假设下,Portfolio分配任务被形式化为MDP:1。投资者可以在连续的有限时间范围内的每一个时间步进行交易。单一投资者的交易不能影响市场。3、投资资本只有两种资产(股票和无风险资产)。4、投资者投资总额,即投资者无风险规避。3.1. 为自动财务断言交易培训智能代理的基本理念是一个长期存在的话题,在现代艺术智能中已被广泛讨论(Saad et al.,1998)。本质上,交易过程被很好地描述为一个在线决策问题,它涉及两个关键步骤:市场环境和最佳行动执行。由于缺乏挑战性。因此,这就要求代理人自己探索未知的股市环境,同时做出正确的决策。挑战:1)挑战源于对金融环境的总结和描述的困难;2) ICML 2019Portfolio Allocation 0 Portfolio Allocation 1 Portfolio Allocation 2 Portfolio Allocation 3价格变动买入卖出Portfolio Allocation 0 Portfolio Allocation 1 Portfolio Allocation 2 Portfolio Allocation 3价格变动买入卖出图2的提交和格式说明。策略(买入、持有和卖出)导致在价格变动后的时间t+1出现三种可能的投资组合。财务数据包含大量噪音、跳跃和移动,导致时间序列非常不稳定。总之,强化学习训练agent与环境交互,以获得最大的总体回报。该奖金价值通常与代理人确定的任务目标有关。3.1.1.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-20 20:54