楼主: 能者818
1459 34

[量化金融] 连续时间均值-方差投资组合选择:一种强化 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5040
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-14 13:57:35 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Continuous-Time Mean-Variance Portfolio Selection: A Reinforcement
  Learning Framework》
---
作者:
Haoran Wang, Xun Yu Zhou
---
最新提交年份:
2019
---
英文摘要:
  We approach the continuous-time mean-variance (MV) portfolio selection with reinforcement learning (RL). The problem is to achieve the best tradeoff between exploration and exploitation, and is formulated as an entropy-regularized, relaxed stochastic control problem. We prove that the optimal feedback policy for this problem must be Gaussian, with time-decaying variance. We then establish connections between the entropy-regularized MV and the classical MV, including the solvability equivalence and the convergence as exploration weighting parameter decays to zero. Finally, we prove a policy improvement theorem, based on which we devise an implementable RL algorithm. We find that our algorithm outperforms both an adaptive control based method and a deep neural networks based algorithm by a large margin in our simulations.
---
中文摘要:
我们用强化学习(RL)方法研究了连续时间均值方差(MV)投资组合选择问题。该问题是为了在勘探和开采之间实现最佳权衡,并被表述为一个熵正则化、松弛的随机控制问题。我们证明了该问题的最优反馈策略必须是方差随时间衰减的高斯最优反馈策略。然后,我们建立了熵正则化MV和经典MV之间的联系,包括可解性等价性和探索权重参数衰减为零时的收敛性。最后,我们证明了一个策略改进定理,并在此基础上设计了一个可实现的RL算法。我们发现,在我们的仿真中,我们的算法大大优于基于自适应控制的方法和基于深度神经网络的算法。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--

---
PDF下载:
--> Continuous-Time_Mean-Variance_Portfolio_Selection:_A_Reinforcement_Learning_Framework.pdf (456.79 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:投资组合选择 投资组合 连续时间 Applications Optimization

沙发
何人来此 在职认证  发表于 2022-6-14 13:57:40
连续时间均值-方差组合选择:一个强化学习框架*王浩然+周迅宇初稿:2019年2月此版本:2019年5月摘要我们采用强化学习(RL)方法进行连续时间均值-方差(MV)组合选择。这个问题是为了在开发和利用之间实现最佳的权衡,它被表述为一个熵正则化、放松的随机控制问题。我们证明了该问题的最优反馈策略必须是具有时间衰减方差的beGaussian反馈策略。然后,我们建立了熵正则化MV和经典MV之间的联系,包括可解性等价性和探索权重参数衰减为零时的收敛性。最后,我们证明了一种策略改进理论,并在此基础上设计了一种可实现的RL算法。我们发现,我们的算法在仿真中大大优于基于自适应控制的方法和基于深度神经网络的算法。关键词。强化学习,均值-方差投资组合选择,熵正则化,随机控制,值函数,高斯分布,政策改进定理。*我们感谢Fields Institute研讨会与会者的评论。Wang感谢哥伦比亚FDT智能资产管理中心提供的财政支持。Zhou感谢哥伦比亚大学的启动拨款和FDT智能资产管理中心提供的财政支持。+美国纽约哥伦比亚大学工业工程与运营研究系,邮编:10027。电子邮件:hw2718@columbia.edu.美国纽约哥伦比亚大学工业工程与运筹学系和数据科学研究所,邮编:10027。

藤椅
大多数88 在职认证  发表于 2022-6-14 13:57:43
电子邮件:xz2574@columbia.edu.1近年来,强化学习(RL)在定量金融(如算法和高频交易、智能订单处理、投资组合管理等)中的应用越来越受到关注。其中一个主要原因是,当今盛行的电子市场能够为培训和适应性学习提供足够数量的微观结构数据,远远超出了过去人类交易员和投资组合经理所能处理的范围。沿着这一方向进行了大量研究。例如,Nevmyvaka等人(2006年)对应用于最优订单执行的RL方法进行了第一次大规模实证分析,并取得了相对于基线策略的实质性改进。Hendricks和Wilcox(2014)利用RL技术和市场属性改进了Almgren-Chriss模型(Almgren and Chriss(2001))的理论最优交易策略。Moody和Saffell(2001)以及Moody et al.(1998)通过基于直接策略搜索的RL方法研究了具有交易成本的投资组合分配问题,而没有求助于依赖于超级学习的预测模型。然而,现有的大多数工作只关注具有折扣回报预期效用的RL优化问题。这些标准要么无法充分描述金融市场决策过程的不确定性,要么对典型投资者不透明。另一方面,均值-方差(MV)是投资组合选择的最重要标准之一。马科维茨(Markowitz,1952)在一个时期内进行投资组合选择的开创性工作中提出了这样一个标准,该标准产生了一种资产配置策略,该策略可以最大限度地减少最终支付的方差,同时以一些特定的平均回报为目标。

板凳
nandehutu2022 在职认证  发表于 2022-6-14 13:57:47
在离散时间多周期设置(Li和Ng(2000))和连续时间设置(Zhou和Li(2000))中,以及对冲(Duffee和Richardson(1991))和最优清算(Almgren和C hriss(2001))以及许多其他变量和推广中,对MV问题进行了进一步研究。MV标准的流行不仅是因为其在捕捉从业者风险和回报之间的权衡方面的直观性和易变性,而且还因为不成熟的随机优化和控制问题内在的时间不一致性(或Bellman不一致性)这一理论上有趣的问题。从RL的角度来看,在MVCriteria下寻求马尔可夫决策过程(MDP)问题的全局最优解在计算上具有挑战性(Mannor和Tsitsiklis(2013))。事实上,方差估计和控制并不像优化预期回报那样直接,对于大多数RL问题,经典MDP框架已经很好地理解了这一点。由于大多数标准的MDP绩效标准在预期中是线性的,包括折扣奖励和长期平均奖励(Sutton和Barto(2018)),因此可以很容易地导出Bellman的一致性方程来指导政策评估和控制,从而产生许多最先进的RL技术(如Q-learning、temproaral Difference(TD)learning等)。然而,预期回报的方差是非线性的,因此,大多数已知的学习规则无法直接应用。现有的方差估计和控制工作一般分为两类,基于价值的方法和基于政策的方法。Sobel(1982)获得了给定政策下奖励方差的Bellman方程——不减额。基于该方程,Sato等人。

报纸
可人4 在职认证  发表于 2022-6-14 13:57:52
(2001)推导了T D(0)学习规则,以估计任何给定策略下的方差。Sato和Kobayashi(2000)在一篇相关论文中将这种基于价值的方法应用于MV投资组合选择问题。值得注意的是,由于他们对中间值函数(即方差惩罚的预期奖励)的定义,Bellman的最优性原则并不成立。因此,不能保证基于最新更新值函数的贪婪策略最终会导致真正的全局最优策略。第二种方法是基于政策的RL,由inTamar et al.(2013)提出。他们还将工作扩展到线性函数逼近器,并为MV优化问题设计了演员-评论家算法,以概率1保证收敛到局部最优(Tamar和Mannor(2013))。这一研究领域的相关工作包括Prashanth和Ghavamzadeh(2013、2016)等。尽管有上述各种方法,但在mv准则下寻找全局最优解仍然是RL中一个开放而有趣的问题。在本文中,我们建立了一个研究连续时间MV投资组合选择的RL框架,其中包含连续投资组合(控制/行动)和财富(状态/特征)空间。当投资组合的再平衡可以以超高频率进行时,就会出现连续时间公式。这种公式也可以从目前大多数电子市场上提供的大量滴答数据中获益。经典的连续时间MV投资组合模型是一个随机线性-二次(LQ)控制问题的空间实例(Zhou和Li(2000))。最近,Wang et al.(2019)提出并开发了一种通用的熵正则化、宽松的随机控制公式,称为探索公式,以明确捕获RL中勘探和开发之间的权衡。

地板
大多数88 在职认证  发表于 2022-6-14 13:57:55
他们表明,对于有限时间范围内的LQ控制问题,探索性控制策略的最优分布必须从零开始,从而为在RL算法设计和实践中广泛使用的Guassian探索提供了解释。虽然基本上是一个LQ控制问题,但MV投资组合选择必须在特定的时间范围内制定,而Wang等人(2019)并未涵盖该时间范围。本文的第一个贡献是提出了探索性MV问题的全局最优解。一个有趣的发现是,与Wang等人(2019)得出的有限水平情况不同,有限水平情况下的最佳反馈控制策略是具有时间衰减方差的高斯分布。这表明,随着时间接近计划层位的终点,勘探水平降低。另一方面,我们将获得与Wang et al.(2019)中的结果和观察结果平行的结果和观察结果,例如在最优高斯分布的均值和方差中,开发和探索之间的完美分离,随机环境对学习的积极影响,以及经典MV问题和探索MV问题之间的密切联系。然而,本文的主要贡献是设计一个可解释和可实现的RL算法,以学习探索性MV问题的全局最优解,前提是具有熵正则化和控制松弛的连续时间随机控制问题的可证明策略改进定理。该定理以当前策略的值函数为基础,以迭代的方式为反馈高斯策略提供了一种显式的更新方案。

7
mingdashike22 在职认证  发表于 2022-6-14 13:57:59
此外,无论初始政策的选择如何,它都可以使我们从一般的非参数政策家族减少到勘探和开发的特殊参数化高斯家族。这与在学习过程开始时精心选择的初始高斯策略一起,保证了策略和值函数快速收敛到探索性MV问题的全局最优。我们进一步将我们的RL算法与应用于MV投资组合优化的其他两种方法进行了比较。第一种是一种自适应控制应用程序,它采用底层模型参数的实时最大似然估计。另一种是最近开发的ContinuOUS controlRL算法,这是一种采用深层神经网络的深层确定性政策梯度方法(Lillicrap et al.(2016))。这些比较是在各种模拟市场情景下进行的,包括具有固定和非固定投资机会的情景。在几乎所有的仿真中,我们的RL算法在执行ce和训练时间方面都比其他两种方法有很大的优势。论文的其余部分组织如下。在第二节中,我们提出了熵规则松弛随机控制框架下的连续时间探索MV问题。第3节提供了探索性MV问题的完整解决方案,以及与经典对应问题的连接。然后,在第4节中,我们给出了学习问题的策略改进定理和收敛结果,在此基础上,我们提出了用于解决探索性MV问题的RL算法。在第5节中,我们将我们的算法与其他两种方法在不同市场场景下的模拟进行比较。

8
可人4 在职认证  发表于 2022-6-14 13:58:03
最后,我们在第6.2节“问题的表述”中得出结论,在RL的背景下,我们在连续时间内表述了一个探索性的、熵正则化的Markowitz\'sMV投资组合选择问题。Wang et al.(2019)在前一篇论文中详细讨论了一般探索性随机控制公式的动机,其中MV问题是一个特例;因此,我们将经常参考该文件。2.1经典连续时间MV问题我们首先回顾经典连续时间MV问题(使用OUT RL)。为了便于介绍,在本文中,我们考虑一个仅由一项风险资产和一项无风险资产组成的投资宇宙。多重风险资产的情况除了符号的复杂性外,并没有本质的区别或困难。固定投资计划期限T>0,且{Wt,0≤ t型≤ T}定义在过滤概率空间上的标准一维布朗运动(Ohm, F、 {Ft}0≤t型≤T、 P)满足通常条件。风险资产的价格过程是一个几何布朗运动,由dst=St(udt+σdWt),0≤ t型≤ T、 (1)S=S>0为T=0时的初始价格,且u∈ R、 σ>0分别为平均值和波动率参数。无风险资产的恒定利率r>0。风险资产的夏普比率由ρ=u确定-rσ。在实践中,真实(但未知)投资机会参数u、σ和r可以是时变随机过程。大多数现有的定量融资方法都致力于估算这些参数。相反,RL通过勘探和开发学习各种策略的值和最优值,而不假设这些参数的统计特性或对其进行估计。但对于基于模型的经典MV问题,我们假设这些参数是常数且已知的。

9
何人来此 在职认证  发表于 2022-6-14 13:58:07
在随后的上下文中,我们所需要的只是RL算法设计问题的结构。用{xut,0表示≤ t型≤ T}一个经纪人的贴现财富过程,该经纪人通过策略u={ut,0来平衡她的投资组合,投资于有风险和无风险的资产≤ t型≤ T}。此处是在时间t时风险资产的贴现美元价值,同时满足标准自我融资假设和其他技术条件,这些条件将在下文详细说明。从(1)可以看出,财富过程满足dxut=σut(ρdt+dWt),0≤ t型≤ T、 (2)初始捐赠为xu=x∈ R、 经典的连续s-time MV模型旨在解决以下约束优化问题minuvar[xuT],前提是E[xuT]=z,(3),其中{xuT,0≤ t型≤ 满足投资策略(投资组合)u和z下的动态(2)∈ R是设定为t=0的投资目标,即投资期结束时的预期平均收益【0,t】。由于目标的差异,(3)被认为是时间不一致的。由于时间不一致的优化问题通常没有动态最优解,因此该问题变得具有描述性而非规范性。代理对同一时间不一致性问题的反应不同,本研究的目标是描述面对这种时间不一致性时的不同行为。在本文中,我们关注MV问题的所谓预承诺策略,即仅在att=0时最优的策略。为了解决(3),首先应用拉格朗日乘子w:minuE[(xuT)]将其转化为无约束问题- z- 2w(E[xuT]- z) =分钟[(xuT- w) ]- (w)- z) 。(4) 最初的MV问题是为两个目标(即最大化预期终端支付和最小化其方差)优化问题找到帕累托有效边界。

10
kedemingshi 在职认证  发表于 2022-6-14 13:58:11
有许多等效的数学公式可以找到这样的公式,(3)就是其中之一。特别地,通过改变参数z,可以追踪边界。详见周、李(2000)。有关时间不一致情况下不同行为的详细讨论,请参见开创性论文Strotz(1955)。文献中对连续时间MV问题的研究大多集中在预承诺策略上;见周和李(2000);Li等人(2002);Bielecki等人(2005年);Lim和Zhou(2002);周和尹(2003)。严格来说,2w∈ R是拉格朗日乘数。这个问题可以解析地解决,其解u*= {u*t、 0个≤ t型≤ T}依赖于w。然后原始约束E[xu*T] =z确定w的值。我们对Zhou和Li(2000)进行了详细推导。2.2探索性连续时间MV问题在完全了解模型参数的情况下,经典的、基于模型的MV问题(3)及其许多变体已得到彻底解决。在实施这些解决方案时,需要根据资产价格的历史时间序列估计市场参数,这一过程在经典自适应控制中称为识别。然而,众所周知,在实践中,很难以可行的精度估计投资组合参数,尤其是平均回报率(又称均值模糊问题;参见Luenberger(1998))。此外,经典最优MV策略通常对这些参数非常敏感,这主要是由于将病态方差-协方差矩阵倒置以获得最优分配权重的过程。鉴于这两个问题,马科维茨解决方案可能与潜在的投资目标极为无关。另一方面,RL技术不需要,实际上经常需要,对模型参数进行任何估计。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-6 18:48