楼主: 能者818
681 26

[量化金融] 大规模连续时间均值-方差投资组合分配 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-24 12:00:38
那么,limn→∞πn(·;t,x,w)=π*(·;t,x,w)弱,(18)和limn→∞Vπn(t,x;w)=V(t,x;w),(19)表示任何(t,x,w)∈ [0,T]×R×R,其中π*和V分别是最优高斯策略(14)和最优值函数(13)。证据参见附录C.4.4.2 EMV算法我们提供了EM V算法,可在竞争性训练时间内直接学习高维连续时间探索者y MV问题的最优解。定理3为政策改进提供了指导。对于政策评估步骤,我们遵循[5]最小化连续时间Bellman误差δt:=˙Vπt+λZRdπt(u)lnπt(u)du,(20),其中˙Vπt=Vπ(t+t、 Xt公司+t)-Vπ(t,Xt)总导数和t是学习算法的离散化步骤。这导致成本函数最小化c(θ,φ)=X(ti,xi)∈D˙Vθ(ti,xi)+λZRdπφti(u)lnπφti(u)dut、 (21)使用在当前高斯策略πφ下的集合中收集的样本。这里,根据(13)定理3和4,值函数Vθ和高斯策略πφ都可以显式参数化。成本函数(21)可以通过随机梯度下降最小化。最后,EMV算法基于随机逼近和约束E[XπT]=z,name ly,w,每N次迭代更新拉格朗日乘子w← w- α(NPjxjT- z) ,其中xjT是最新的N终端财富值。关于单一风险资产情景下EMV算法的更详细描述,请参考文献[31]。5实证结果5.1数据和方法采用EMV算法对标准普尔500指数股票的月度和日交易价格数据进行分析。对于前者,我们在1990年8月31日至2000年8月31日的10年月度数据上训练EMV算法,并在2000年9月29日至2010年9月30日对分配策略进行n检验。

12
kedemingshi 在职认证  发表于 2022-6-24 12:00:41
初始财富标准化为1,10年目标为z=8,对应于23%的年化目标回报率。在每日再平衡情景中,EMV算法根据2017年9月1日至2018年8月1日的1年每日数据进行训练,并在随后的一年进行测试,将40%的回报率设定为1年投资期限的目标。为了进行比较研究,我们还对解决相同数据上的portfolioallocation问题的其他替代方法进行了培训和测试。具体而言,我们考虑了经典的计量经济学方法,包括Black Litterman(BL,[2])、Fama French(FF,[7])和Markowitz投资组合(Markowitz,[13])。还包括最近开发的一种分布式鲁棒MV策略,即鲁棒Wasserstein预测(RWPI,[3])。为了将EMV与deep RL方法进行比较,我们对DDPG进行了类似的调整,以解决经典的MV问题(3)。所有实验均在MacBook Air笔记本电脑上进行,DDPG使用Tensor Flow进行培训。5.2测试I:月度再平衡我们首先考虑d=2 0。通过随机选择20个砧木作为每组/种子,我们合成了100个不同的种子。EMV和DDPG的培训和测试数据的分割如上所述是固定的,但我们考虑两种类型的培训。第一种训练方法是批量(离线)RL,其中使用一个种子对两个算法进行多集训练,然后对沃顿研究数据服务(WRDS)的后续数据进行测试。https://wrds-web.wharton.upenn.edu/wrds/(a) 每月再平衡(d=20)(b)每日再平衡(d=50)图1:(a)10年期内每月再平衡和(b)1年期内每日再平衡的投资绩效比较。该种子的10年数据。然后对100个种子的性能进行平均。

13
kedemingshi 在职认证  发表于 2022-6-24 12:00:44
另一种方法是使用所有100个种子,并在训练期间为每集选择一个种子。然后,在测试期间,在随机选择的100个种子上测试这两种算法,并对其性能进行平均。可以看出,第二种方法可以人为地生成随机性以进行训练和测试,并且使用这种方法执行良好的算法具有通用性和生成不同部门股票数据的潜力。为了提高竞争力,我们对所有其他方法采用基于滚动地平线的培训和测试。具体而言,每次在测试集中提前100万个月做出投资决策后,我们都会将测试集中的最新价格数据点添加到训练集中,并丢弃训练集中的最新价格数据点。图1a显示了各种投资策略的性能,包括对Portfo lios具有不同总杠杆约束的EMV算法变体。在合理的杠杆约束下,尽管EMV算法仅使用前10年的月度数据进行训练,但它仍然大大超过了大多数其他方法(除DDPG外,没有任何约束)。图e 1a中的EMV和DDPG采用通用培训和测试方法。批次法的结果见附录D。在这两种情况下,一个值得注意的事实是,设计用于解决探索性MV问题(6)的原始MV算法,在每个iod的大多数测试中以最小方差实现目标z=8。我们还在表1a中报告了扩大投资组合中股票数量d时的各种投资结果。5.3测试II:每日再平衡对于d=50的每日交易,我们在图1b中展示了EMV算法在不同横向杠杆约束下的性能。

14
大多数88 在职认证  发表于 2022-6-24 12:00:47
DDPG算法在每日交易设置中没有竞争力(见表1b),因此省略。对于不同的d,表1b总结了投资结果和培训时间(每个实验)。这些结果是使用universalmethod进行训练和测试得到的。6相关工作在MV-cr-iterion下寻求Mar-kov决策过程(MDP)问题全局最优的困难已在【12】中指出。事实上,预期回报的方差是非线性的,由于Bellman的不一致性,大多数著名的RL算法无法直接应用。现有的方差估计和控制方法一般分为基于价值的方法和基于政策的方法。【28】获得了固定既定政策下奖励方差的贝尔曼方程。[25]进一步推导了TD(0)学习规则来估计方差,然后[24]将这种基于价值的方法应用于MV投资组合选择问题。值得注意的是,由于[24]中对价值函数的定义(即受惩罚的预期回报的变化),贝尔曼的最优原则并不成立。

15
mingdashike22 在职认证  发表于 2022-6-24 12:00:49
因此,不能保证greedyLeverage是大多数对冲基金的基本投资工具;根据文献[1],其中研究的208只对冲基金的平均毛利率为213%。表1:年化回报率(夏普比率)和对应于不同d的培训时间,用于(a)10年期的月度再平衡和(b)1年期的每日再平衡。(a) 每月再平衡d=20 d=60 d=100 EMV(L=200%)10.8%0.31小时11.2%4.34小时6.3%1.53 hrsa(0.797)(1.323)(1.627)DDPG(L=200%)-300.1%4.23小时476.3%5.32小时-653.4%6.68小时(未按年计算)(-0.411) (0.359 ) (-0.432)(b)每日再平衡d=50 d=75 d=100EMV(L=200%)44.9%1.36小时33.0%5.54小时17.9%1.63 hrsa(1.347)(1.370)(1.124)DDPG(L=200%)-189.6%6.20小时-27.9%8.45小时-640.6%14.42小时(-0.096) (-0.012) (-0.219)只训练了1000集,而其他实验的训练集为20000集。基于最新更新的价值函数的政策最终将导致真正的全球运营政策。第二种方法,即政策b a sed RL,在[30]中提出。他们还将工作扩展到线性函数近似,并为MV优化问题设计了演员-评论家算法,该问题的c收敛到局部最优值的概率为1([29])。这一研究领域的相关工作包括【22】、【23】等。尽管有上述各种方法,但在MV准则下寻找全局最优解仍然是RL中一个开放而有趣的问题。本文不依赖于离散时间MDP和相应的离散时间和状态/动作空间的典型框架,而是设计了EMV算法来直接学习连续时间探索性MV问题(6)的全局最优解。

16
kedemingshi 在职认证  发表于 2022-6-24 12:00:53
正如【5】中所指出的,通常很难找到合适的粒度来离散化状态和动作空间,单纯的离散化可能会导致性能不佳。另一方面,尽管已经建立了理论上的收敛性结果(见[19]、[18]),但由于维数灾难,用于求解HJB方程的基于网格的离散化方法在实际中很难扩展到高维。然而,我们的EMV算法在计算上是可行的,并且可以在高维上实现,正如实验所证明的那样,它依赖于值函数的显式表示和PORTFO lio策略,因此没有维数灾难。请注意,我们的算法没有使用(深度)神经网络,文献中已将其广泛应用于(高维)连续RL问题(例如,[10]、[15]),但已知其性能不稳定、采样不效率以及广泛的超参数调整([15]、[6]、[8]),此外其解释性较低。7结论我们使用RL方法研究了高维连续时间均值方差(MV)投资组合分配问题。在一般连续时间优化问题的探索性控制框架下,我们在高维上构造了探索性MV问题,并证明了Gau-ssian策略在实现探索和探索之间的最佳权衡方面的最优性。OurEMV算法是通过结合定量财务分析和RL技术来解决探索性MV问题而设计的,由于可证明的政策改进定理和基于理论最优解的有效函数近似,该算法具有可解释性、可扩展性和数据效率。在不同的培训和测试场景中,它始终优于经典的基于模型的计量经济学方法和模型fr eedeep RL方法。

17
大多数88 在职认证  发表于 2022-6-24 12:00:55
有趣的未来研究包括对EMV算法进行测试,以便在较短的交易期限内使用滴答数据(例如高频交易),或用于交易其他金融工具,如均值方差期权对冲。由于监管要求等原因,可解释性是金融业一般人工智能应用中最重要和紧迫的问题之一。感谢作者感谢周迅宇教授对这项工作的广泛支持和持续鼓励。作者还要感谢Lin(Charles)Chen提供了BL、FF、Markowitz和RWPI方法的结果。参考文献【1】Andrew Ang、Sergiy Gorovyy和Gregory B Van Inwegen。对冲基金杠杆。《国家经济学杂志》,102(1):102–126,2011年。[2] 菲舍尔·布莱克和罗伯特·利特曼。全球投资组合优化。《金融分析师杂志》,48(5):28–431992年。[3] Jose Blanchet、Lin Chen和Xun Yu Zhou。具有Wasserstein距离的分布稳健均值方差组合选择。arXiv预印本arXiv:1802.048852018。[4] Hans Buehler、Lukas Gonon、Josef Teichman和Ben Wood。深度对冲。QuantitativeFinance,第1-21页,2019年。[5] Kenji Doya。在连续的时间和空间中强化学习。神经计算,12(1):21 9–2452000。[6] Yan Duan、Xi Chen、Rein Houthooft、John Schulm an和Pieter Ab beel。针对持续控制的水泥学习深度基准测试。在2016年国际机器学习会议上,第1329–1 338页。[7] 尤金·法玛和肯尼斯·R·弗伦奇。资产定价异常的多因素解释。《金融杂志》,51(1):55–841996年。[8] Peter Henderson、Riashat Islam、Philip Bachman、Jo elle Pineau、Doina Precup和d DavidMeger。重要的深层强化学习。

18
能者818 在职认证  发表于 2022-6-24 12:00:59
2018年第三十二届AAAI人工智能会议。[9] 谢尔盖·莱文、切尔西·芬恩、特雷弗·达雷尔和彼得·阿贝尔。d e EPVisumotor策略的端到端培训。《机器学习研究杂志》,17(1):1334–1373,2016年。[10] 蒂莫西·利利利克拉普、乔纳森·亨特、亚历山大·普里策尔、尼古拉斯·希斯、汤姆·埃雷斯、尤瓦尔·塔萨、大卫·西尔弗和达恩·维斯特拉。通过深度强化学习进行持续控制。国际学习代表大会,20 16。[11] David G Luenberger。投资科学。Ox ford大学出版社,纽约,1998年。[12] Shie Mannor和John N Tsitsiklis。马尔科夫决策过程中均值-方差优化的算法方面。《欧洲运筹学杂志》,231(3):645–6532013。[13] 哈里·马科维茨。Portfo lio精选。《金融杂志》,7(1):77–911952年。[14] 哈里·马科维茨。投资组合选择:有效的投资多元化。耶鲁大学出版社,1959年。ISBN 9780 300013726。统一资源定位地址http://www.jstor.org/stable/j.ctt1bh4c8h.[15] 沃洛迪米尔·姆尼赫、科雷·卡武科库奥卢、大卫·西尔弗、安德烈·伊阿·鲁苏、乔尔·维斯、马克·格贝勒马尔、亚历克斯·格雷夫斯、马丁·里德米勒、安德烈亚斯·基德杰兰和乔治·奥斯特罗夫斯基。通过深度强化学习实现人的水平控制。《自然》,518(7540):5292015。[16] 约翰·穆迪和马修·萨菲尔。通过直接强化学习贸易。IEEE神经网络学报,12(4):875–8892001。[17] 约翰·穆迪、吴立忠、廖元松和马修·萨菲尔。为交易系统和投资组合执行ance功能和信息学习。《预测杂志》,17(5-6):441-4701998年。[18] 雷米·穆诺斯。利用粘性解研究连续情况下的强化学习。机器学习,40(3):265–2992000。[19] 雷米·穆诺斯和保罗·布尔金。连续随机控制问题的强化学习。

19
大多数88 在职认证  发表于 2022-6-24 12:01:02
《神经信息处理系统的进展》,第1029-10351998页。[20] 尤里·内夫米瓦卡、易峰和迈克尔·卡恩斯。优化交易执行的强化学习。第23届机器学习国际会议论文集,第673-680页,2006年。[21]Jan Peters、Sethu Vijayakumar和Stefan Schaal。仿人机器人强化学习。《第三届IEEE-RAS类人机器人国际会议论文集》,第1-20页,2003年。[22]LaPrashanth和Mohammad Ghavamzadeh。用于风险敏感MDP的演员-评论家算法。《神经信息处理系统的进展》,第252–260页,2013年。[23]LA Prashanth和Mohammad Ghavamzadeh。方差约束的演员评判算法,用于计算和平均奖励MDP。《机器学习》,105(3):367–4172016。【24】佐藤Makoto Sato和Shigenobu Kobaya shi。风险规避资产配置的方差惩罚强化学习。智能数据工程和自动学习国际会议,第244-249页。斯普林格,2000年。【25】佐藤Makoto Sato、木村肇美和小林寺Shibenobu。用于回归方差和均值方差强化学习的TD算法。《日本人工智能学会学报》,16(3):353–3622001年。【26】大卫·西尔弗、阿贾·黄、克里斯·J·马·迪森、阿瑟·盖兹、劳伦特·西弗、乔治·范登·德里·斯切特、朱利安·施里特维泽、伊奥·安尼斯·安东诺格鲁、吠陀·潘尼埃尔舍尔瓦姆和马尔·兰克托特。通过深度神经网络和树搜索掌握围棋游戏。《自然》,529(7587):4842016。【27】大卫·西尔弗、朱利安·施里特·维瑟、凯伦·西蒙尼、伊奥尼斯·安东诺格鲁、阿贾·黄、阿瑟·奎兹、托马斯·休伯特、卢卡斯·贝克、马修·莱和阿德里安·博尔顿。在没有人类知识的情况下掌握地球的游戏。《自然》,550(7676):3542017。【28】马修·J·索贝尔。折扣马尔可夫决策过程的方差。

20
kedemingshi 在职认证  发表于 2022-6-24 12:01:05
《应用可能性杂志》,19(4):794–802,1982年。[29]阿维夫·塔马尔和希伊·曼诺。方差调整的演员-评论家算法。arXiv预印本XIV:1310.36972013。[30]Aviv Tam ar、Dotan Di Castro和Shie Mannor。奖励差异的时间差分方法。在2013年第495–503页的国际机器学习会议上。[31]郝冉·沃恩和周迅宇。连续时间均值-方差投资组合选择:强化学习框架。arXiv预浸纸t arXiv:1904.113922019。[32]王浩然、塔莱娅·扎里波普洛、周迅宇。探索与开发:一种随机控制方法。arXiv预印本:arXiv:1812.01552V32019。【33】周迅宇、段力。连续时间均值-方差投资组合选择:随机LQ框架。《应用数学与优化》,42(1):19–332000。受控财富动态let Wt=(Wt,…,Wdt),0≤ t型≤ T是在过滤概率空间上定义的标准d维布朗运动(Ohm, F、 {Ft}0≤t型≤T、 P)满足通常条件。第i项风险资产的价格过程是由DSIT=Sit控制的几何布朗运动uidt+σi·dWt, 0≤ t型≤ T、 i=1,d、 (22)当Si=Si>0 b为t=0时的初始价格,且ui∈ R、 σi=(σ1i,…,σdi)∈ Rd分别为第i项风险资产的平均回报率和波动率系数。我们用u表示f或V平均返回向量∈ Rd和σ的波动率矩阵∈ Rd×d,其第i列表示第i风险资产的波动率σiof。无风险资产的固定利率r>0。我们假设σ是非退化的,因此存在满足σ′ρ=u的d维向量ρ- r1,其中1是所有分量为1的d维向量。向量ρ被称为风险的市场价格。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 20:37