楼主: 能者818
696 26

[量化金融] 大规模连续时间均值-方差投资组合分配 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5640
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-24 12:00:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Large scale continuous-time mean-variance portfolio allocation via
  reinforcement learning》
---
作者:
Haoran Wang
---
最新提交年份:
2019
---
英文摘要:
  We propose to solve large scale Markowitz mean-variance (MV) portfolio allocation problem using reinforcement learning (RL). By adopting the recently developed continuous-time exploratory control framework, we formulate the exploratory MV problem in high dimensions. We further show the optimality of a multivariate Gaussian feedback policy, with time-decaying variance, in trading off exploration and exploitation. Based on a provable policy improvement theorem, we devise a scalable and data-efficient RL algorithm and conduct large scale empirical tests using data from the S&P 500 stocks. We found that our method consistently achieves over 10% annualized returns and it outperforms econometric methods and the deep RL method by large margins, for both long and medium terms of investment with monthly and daily trading.
---
中文摘要:
我们建议使用强化学习(RL)来解决大规模Markowitz均值-方差(MV)投资组合分配问题。通过采用最近开发的连续时间探索性控制框架,我们在高维上描述了探索性MV问题。我们进一步证明了方差随时间衰减的多元高斯反馈策略在权衡勘探和开发时的最优性。基于一个可证明的政策改进定理,我们设计了一个可扩展且数据高效的RL算法,并使用标准普尔500指数股票的数据进行了大规模的实证检验。我们发现,我们的方法始终实现超过10%的年化回报,无论是长期还是中期投资,无论是月度还是每日交易,它都大大优于计量经济学方法和深度RL方法。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:投资组合 连续时间 大规模 Optimization exploitation

沙发
nandehutu2022 在职认证  发表于 2022-6-24 12:00:06
通过强化学习的大规模连续时间均值-方差投资组合分配Haoran WangDepartment of Industrial Engineering and Operations s Research哥伦比亚大学纽约分校,NY 10027摘要我们建议使用强化学习(RL)解决大规模Markowitz均值-方差(MV)投资组合分配问题。通过采用最近发展起来的连续时间探索控制框架,我们在高维上构造了探索者y MV问题。我们进一步证明了一个方差随时间衰减的多元高斯反馈策略在勘探开发过程中的最优性。基于一个可证明的政策改进定理,我们设计了一个可扩展且数据有效的RL算法,并使用标准普尔500指数股票的数据进行了大规模的实证测试。我们发现,我们的方法始终实现超过10%的年化回报,无论是长期投资还是中期投资,无论是月度交易还是日常交易,都以巨大的利润超过了ms经济计量方法和深度RL方法。1简介强化学习(RL)在游戏([26]、[27]、[15])、机器人学([9]、[21])中证明是成功的,这也引起了人们对其在定量金融中的应用的极大关注。值得注意的例子包括使用clssical Q-learningmethod的大规模最优订单执行([20]),使用直接策略搜索的投资组合分配([16],[17]),以及使用deep RL方法的期权定价和对冲([4]),等等。然而,现有的大多数工作只关注具有折扣报酬预期效用的RL问题。这些标准要么无法完全描述金融市场决策过程的不确定性,要么对典型投资者来说不透明。另一方面,均值-方差(MV)是投资组合选择的最重要标准之一。

藤椅
nandehutu2022 在职认证  发表于 2022-6-24 12:00:09
在诺贝尔奖获得者的著作【13】中提出了一个单一时期的投资组合选择标准,该标准产生了一种资产配置策略,该策略在以特定的平均回报为目标的同时,最大限度地减少了净回报的方差。MV标准的普遍性不仅在于其在捕捉从业者风险和回报之间的权衡方面的直观和透明性,还在于其与潜在的随机优化和控制问题之间的时间不一致性(或贝尔曼不一致性)这一理论上令人感兴趣的问题。在最近的一篇文章[31]中,作者建立了一个RL fr模型,用于研究连续时间MV投资组合选择,其中包含连续的portfo lio(行动)空间和财富(状态)空间。他们的框架采用了一种广义熵正则化、放松的随机控制形式,称为勘探公式,该公式最初是在【32】中开发的,目的是明确捕获连续时间优化问题在RL中勘探和开发之间的权衡。本文[31]证明了一维多变量问题的高斯探索(方差随时间衰减)的最优性,并提出了一种数据驱动的算法,即EMV算法,用于学习探索性多变量问题的最优高斯策略。仿真结果表明,EMV算法的性能优于经典的经济度量方法和深度确定性策略梯度预印本。正在进行的工作。(DDPG)算法,在仅使用一个风险集的情况下解决MV问题。这项工作有助于将[31]中的连续时间探索MV框架概括为大规模投资组合选择,风险资产的数量相对较大,可用的培训数据相对有限。

板凳
kedemingshi 在职认证  发表于 2022-6-24 12:00:12
我们建立了高维高斯策略的理论最优性,并设计了一个可扩展的EMV算法来直接输出portfolioallocation策略。通过转向高维度的投资组合选择,我们可以在原则上更多地利用多元化效应([14]),以获得更好的绩效,同时,也可能面临大多数深度方法所面临的样本效率低和不稳定性的挑战([6]、[8])。尽管如此,尽管EMV算法是一种策略上的方法,但由于一个可证明的策略改进定理和理论最优高斯策略和值函数的显式函数结构,它可以实现比非策略方法DDPG更好的数据效率。例如,在一项为期10年的月度阅读实验(见第5.2节)中,可用的训练数据点与测试决策时间相同,MV算法的性能仍优于本文所述的各种替代方法。为了进一步实证检验EMV算法的性能和稳健性,我们使用标准普尔500指数股票的月度和每日价格数据,对中长期投资期限进行了实验。在大多数实验中,年回报率一直超过10%。EMV alg算法也表现出了显著的普遍适用性,因为它可以在随机选择的stoc ks的不同数据集上分别进行训练和测试,并且仍然实现了竞争性和更稳健的性能(参见附录D)。2符号和背景2.1经典连续时间MV问题我们考虑连续时间(无RL)中的经典M V问题,其中投资宇宙由一项无风险资产(储蓄账户)和d项风险资产(如股票)组成。固定投资计划期限T>0。

报纸
nandehutu2022 在职认证  发表于 2022-6-24 12:00:16
表示b y{xut,0≤ t型≤ T}一个绅士的贴现财富(即状态)过程,他用策略(政策)u={ut,0重新平衡她的投资组合(即行动),投资于风险和无风险资产≤ t型≤ T}。此处,ut=(ut,…,udt)是在时间t时d风险资产的贴现层价值。在股票价格的计量布朗运动假设和标准自我融资条件下,可以得出(见附录A),财富过程满足dxUT=σut·(ρdt+dWt),0≤ t型≤ T、 (1)初始捐赠为xu=x∈ R、 这里,Wt=(Wt,…,Wdt),0≤ t型≤ T是一个标准的d维布朗运动,定义在过滤概率空间上(Ohm, F、 {Ft}0≤t型≤T、 P)。向量ρ通常被称为风险的市场价格和σ∈ Rd×dis假设为非退化的挥发性矩阵。然后,经典的连续时间MV模型旨在解决以下约束优化问题minuvar[xuT],前提是E[xuT]=z,(2),其中{xuT,0≤ t型≤ 满足投资策略(组合)u和dz下的动态(1)∈ R是设定为t=0的投资目标,作为investmenthorizon结束时的预期目标回报【0,t】。由于目标的差异,(2)被认为是时间不一致的。在本文中,我们专注于MV问题的所谓预承诺策略,这些策略仅在t=0时是最优的。为了解决(2),首先应用拉格朗日乘子w:minuE[(xuT)]将其转化为无约束问题- z- 2w(E[xuT]- z) =分钟[(xuT- w) ]- (w)- z) 。(3) 这个问题可以用解析法求解,其解u*= {u*t、 0个≤ t型≤ T}依赖于w。然后原始约束E[xu*T] =z确定w的值。

地板
mingdashike22 在职认证  发表于 2022-6-24 12:00:19
我们参考了[33]的详细推导。本文中的所有向量都被视为列向量。严格来说,2w∈ R是拉格朗日乘数。2.2探索性连续时间MV问题经典MV解决方案要求根据资产价格的历史时间序列估计市场参数。然而,正如实践中所知,很难以可行的精度估计投资机会参数,尤其是平均回报向量(又称mea n–blur问题;参见,例如,[11])。此外,经典的最优MV策略通常对这些参数非常敏感,这主要是由于将病态共价矩阵倒置以获得最优分配权重的过程。鉴于这两个问题,马科维茨解决方案可能与潜在的投资目标极为无关。另一方面,RL技术不需要,甚至经常跳过对mod e LPA参数的任何估计。Rath er、RL算法由历史数据驱动,直接输出最优(或接近最优)分配。这是通过在优化(利用)的同时,以学习(探索)的方式与未知的投资环境直接互动实现的。在[32]之后,我们介绍了状态动力学的“探索性”版本(1)。在这个公式中,控制(投资组合)过程u={ut,0≤ t型≤ T}被随机分配到RL中代表勘探,这导致了一个测量值或分布控制过程,其密度函数由π={πT,0给出≤ t型≤ T}。动力学(1)更改为xπT=ZRdρ′σuπt(u)dudt公司+ZRdu′σ′σuπt(u)dudBt,(4)其中{Bt,0≤ t型≤ T}是过滤概率空间上的一维标准布朗运动(Ohm, F、 {F}0≤t型≤T、 P)。

7
可人4 在职认证  发表于 2022-6-24 12:00:23
从数学上讲,(4)用包含控制理论中的放松控制公式来描述探索对潜在连续时间状态动力学变化的影响。我们请读者参阅[32],详细讨论(4)的动机。随机分布控制过程π={πt,0≤ t型≤ T}是对勘探建模,总体水平依次由其累积微分熵(π)捕获:=-ZTZRdπt(u)lnπt(u)dudt。(5) 此外,我们引入了一个温度参数(或勘探权重)λ>0,以反映开采和勘探之间的权衡。然后,对于任何固定的∈ R: 最小π∈A(0,x)E“(xπT- w) +λZTZRdπt(u)lnπt(u)dudt#- (w)- z) ,(6)式中,A(0,x)是[0,T]上的容许分布控制集,其精确定义被简化为Ap pendix B。一旦用最小π解决了这个问题*= {π*t、 0个≤ t型≤ T},可以通过附加约束E[Xπ]确定拉格朗日乘数w*T] =z。优化目标(6)明确鼓励勘探,与仅涉及开采的经典问题(3)相反。3高斯探索的最优性为了解决探索性MV问题m(6),我们将经典的Bellman最优原则应用于最优值函数V(见附录B f或V的精确定义):V(t,x;w)=infπ∈A(t,x)EV(s,Xπs;w)+λZstZRdπl(u)lnπl(u)dudlXπt=X,对于x∈ R和0≤ t<s≤ T根据标准参数,我们推断V满足Hamilton-Jaco-bi-Bellman(HJB)方程VT(t,x;w)+minπ∈P(Rd)ZRdu′σ′σuvxx(t,x;w)+ρ′σuvx(t,x;w)+λlnπ(u)π(u)du=0,(7),终端条件v(T,x;w)=(x- w)- (w)- z) 。

8
大多数88 在职认证  发表于 2022-6-24 12:00:26
这里,P研发部表示Rd上概率测度的密度函数集,该密度函数相对于Lebesgue测度是绝对连续的,v表示HJB方程的一般未知解。应用通常的验证技术,并使用π∈ P(Rd)当且仅当ifRRdπ(u)du=1和π(u)≥ 0,a.e.,在Rd上,我们可以解决HJB方程(7)中的(训练过的)优化问题,以获得一个反馈(分布)控制,其密度函数由π给出*(u;t,x,w)=exp-λu′σ′σuvxx(t,x;w)+ρ′σuvx(t,x;w)RRdexp-λu′σ′σuvxx(t,x;w)+ρ′σuvx(t,x;w)du=Nu- σ-1ρvx(t,x;w)vxx(t,x;w),(σ′σ)-1λvxx(t,x;w), (8) 其中,N(u |β,∑)表示具有平均向量β和协方差矩阵∑的高斯密度函数。在(8)中假设vxx(t,x;w)>0,这将在以下内容中验证。将候选最优高斯反馈控制策略(8)替换回HJB方程(7),后者被转换为VT(t,x;w)-ρ′ρvx(t,x;w)vxx(t,x,w)+λd- d项次2πeλvxx(t,x;w)+ ln(|σ′σ|)= 0,(9),v(T,x;w)=(x- w)- (w)- z) ,其中|·|表示矩阵行列式。直接计算得出该方程有一个经典解v(t,x;w)=(x-w) e类-ρ′ρ(T-t) +λdρ′ρT- t型-λdρ′ρT-dln |σ′σ|πλ(T-t)-(w)-z) ,对于任何(t,x),明显满足vxx(t,x;w)>0∈ [0,T]×R。然后,候选最优反馈高斯策略(8)减少到π*(u;t,x,w)=Nu- σ-1ρ(x- w) ,(σ′σ)-1λeρ′ρ(T-t), (t,x)∈ [0,T]×R.(11)最后,π下的最优财富过程(4)*becomesdX公司*t=-ρ′ρ(X*t型- w) dt公司+ρ′ρ(X*t型- w) +λeρ′ρ(T-t)dBt,X*= x、 (12)它为0提供了唯一的强大解决方案≤ t型≤ T,这很容易验证。

9
kedemingshi 在职认证  发表于 2022-6-24 12:00:30
现在,我们在下面的定理中总结上述结果。定理1熵正则化探索MV问题(6)的最优v值函数由v(t,x;w)=(x)给出-w) e类-ρ′ρ(T-t) +λdρ′ρT- t型-λdρ′ρT-dln |σ′σ|πλ(T-t)-(w)-z) ,(13)对于(t,x)∈ [0,T]×R。此外,最优反馈控制是高斯的,其密度函数由π给出*(u;t,x,w)=Nu- σ-1ρ(x- w) ,(σ′σ)-1λeρ′ρ(T-t). (14) π下的关联最优财富过程*是随机微分方程dx的唯一解*t=-ρ′ρ(X*t型- w) dt公司+ρ′ρ(X*t型- w) +λeρ′ρ(T-t)dBt,X*= x、 (15)最后,拉格朗日多重数w由w=zeρ′ρT给出-xeρ′ρT-1.证明。见附录C.1。定理1表明,通过高斯策略的方差λ2σeρ(T-t) ,随时间衰减。代理人最初以最大水平进行勘探,并随着时间接近投资期的结束而逐渐减少(尽管从不为零)。自然,随着时间的成熟,开发主导着勘探。定理1内生性地提出了这样一种衰退的勘探方案,据我们所知,这种勘探方案在RL文献中还没有出现过。此外,高斯分布(14)的平均值与勘探权重λ无关,而其方差与状态x无关。这突出了开采和勘探之间的完美分离,因为前者由平均值捕获,后者由最优高斯勘探的方差捕获。该性质与【32】中研究的有限层中的线性-二次型情况一致。当探索权重λ减小到0时,可以合理地预期该探索问题收敛到其经典对应问题。勒图*是经典MVP问题的最优反馈控制,并用VCL表示最优值函数。

10
何人来此 在职认证  发表于 2022-6-24 12:00:33
设δa(·)b e为以ata为中心的Dirac测度∈ 那么以下结果成立。定理2(t,x,w)∈ [0,T]×R×R,limλ→0π*(·;t,x;w)=δu*(t,x;w)(·)弱。更多,limλ→0 | V(t,x;w)- Vcl(t,x;w)|=0。证据参见附录C.2.4 RL算法设计4.1策略改进定理我们提出了一个策略改进定理,这是我们可解释的RL算法EMV算法的重要前提,该算法解决了高维探索性MV问题。定理3(政策改进定理)让w∈ R是固定的,π=π(·;·,·,w)是任意给定的容许反馈控制策略。假设对应的值函数Vπ(·,·;w)∈ C1,2([0,T)×R)∩ 对于任何(T,x),C([0,T]×R)和sa tis FIE s Vπxx(T,x;w)>0∈ [0,T)×R.进一步假设反馈策略由π(u;T,x,w)=N定义u- σ-1ρVπx(t,x;w)Vπxx(t,x;w),(σ′σ)-1λVπxx(t,x;w)(16) 是可以接受的。那么,V異π(t,x;w)≤ Vπ(t,x;w),(t,x)∈ [0,T]×R.(17)证明。见附录C.3。上述理论表明,高斯族中总有改进任何给定(不一定是高斯)策略的值函数的策略。此外,高斯家族在政策改进方案下是封闭的。因此,在不损失一般性的情况下,当选择初始解时,我们可以简单地关注高斯策略。下一个结果显示了值函数和特定参数化高斯策略的策略的收敛性。定理4设π(u;t,x,w)=N(u |α(x- w) ,σeβ(T-t) ),带α∈ Rd,β∈ R和∑为ad×d正定矩阵。用{πn(u;t,x,w),(t,x)表示∈ [0,T]×R,n≥ 1} 由策略改进方案(16)和{Vπn(t,x;w),(t,x)更新的反馈策略序列∈[0,T]×R,n≥ 1} 相应值函数的顺序。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 14:05