楼主: kedemingshi
1882 34

[量化金融] 金融投资组合的无模型强化学习:简介 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
89.2735
学术水平
0 点
热心指数
8 点
信用等级
0 点
经验
24665 点
帖子
4127
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
kedemingshi 在职认证  发表于 2022-6-14 10:58:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Model-Free Reinforcement Learning for Financial Portfolios: A Brief
  Survey》
---
作者:
Yoshiharu Sato
---
最新提交年份:
2019
---
英文摘要:
  Financial portfolio management is one of the problems that are most frequently encountered in the investment industry. Nevertheless, it is not widely recognized that both Kelly Criterion and Risk Parity collapse into Mean Variance under some conditions, which implies that a universal solution to the portfolio optimization problem could potentially exist. In fact, the process of sequential computation of optimal component weights that maximize the portfolio\'s expected return subject to a certain risk budget can be reformulated as a discrete-time Markov Decision Process (MDP) and hence as a stochastic optimal control, where the system being controlled is a portfolio consisting of multiple investment components, and the control is its component weights. Consequently, the problem could be solved using model-free Reinforcement Learning (RL) without knowing specific component dynamics. By examining existing methods of both value-based and policy-based model-free RL for the portfolio optimization problem, we identify some of the key unresolved questions and difficulties facing today\'s portfolio managers of applying model-free RL to their investment portfolios.
---
中文摘要:
金融投资组合管理是投资行业最常见的问题之一。然而,在某些条件下,Kelly准则和风险平价都会崩溃为均值方差,这意味着可能存在投资组合优化问题的通用解决方案,这一点尚未得到广泛认可。事实上,在一定的风险预算下,使投资组合的预期收益最大化的最优成分权重的顺序计算过程可以被重新表述为离散时间马尔可夫决策过程(MDP),因此可以被表述为随机最优控制,其中被控制的系统是由多个投资成分组成的投资组合,控件是其组件权重。因此,可以使用无模型强化学习(RL)解决该问题,而无需了解特定的组件动力学。通过检查投资组合优化问题中基于价值和基于政策的无模型RL的现有方法,我们确定了当今投资组合经理在将无模型RL应用于其投资组合时所面临的一些尚未解决的关键问题和困难。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Model-Free_Reinforcement_Learning_for_Financial_Portfolios:_A_Brief_Survey.pdf (360.24 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:金融投资 投资组合 Optimization Quantitative Difficulties

沙发
何人来此 在职认证  发表于 2022-6-14 10:58:45
金融投资组合的无模型强化学习:简短调查Yoshiharu Sato+第一版:2019年3月24日本版:2019年5月3日摘要金融投资组合管理是投资行业最常遇到的问题之一。然而,Kelly准则和风险平价在某些条件下都会崩溃为均值方差,这一点尚未得到广泛认可,这意味着可能存在投资组合优化问题的通用解决方案。事实上,在一定的风险预算下,使投资组合的预期收益最大化的最优成分权重的顺序计算过程可以被重新表述为离散时间马尔可夫决策过程(MDP),因此也可以被表述为随机最优控制,其中被控制的系统是一个包含多个投资成分的投资组合,控件是其组件权重。因此,可以使用无模型强化学习(RL)解决该问题,而无需了解特定的组件动力学。通过检查投资组合优化问题中基于价值和基于政策的无模型RL的现有方法,我们确定了当今投资组合经理在将无模型RL应用于其投资组合时面临的一些关键问题和困难。关键词:强化学习、投资组合管理、量化金融+电子邮件:yoshi2233@protonmail.ch.网址:yoshi2233。惊人的简介强化学习(RL)[1]产生自主代理,这些代理通过试错学习的最佳行为与环境交互。

藤椅
能者818 在职认证  发表于 2022-6-14 10:58:49
在过去几年中,深度神经网络(DNN)的快速发展使得DRL能够用高维状态-动作空间解决决策问题,从而建立了深度强化学习(DRL)领域,该领域在玩视频游戏和棋盘游戏方面取得了巨大成功。Deep Q-Network(DQN)[2]及其各种扩展(如Rainbow[3])可以通过仅仅观察屏幕像素来学习在超人级别上玩一系列2600款游戏。近几年,一种称为AlphaGo的混合DRL算法在围棋游戏中击败了一位人类世界冠军,而其更高级和更通用的版本AlphaZero令人信服地击败了国际象棋、围棋和Shogi中的世界冠军程序,因为它不具备基本规则以外的任何领域知识。在这些成功的DRL算法的启发下,近年来,越来越多的已发表文献将RL应用于动态财务决策问题。例如,Gervais等人[6]构建了一个马尔可夫决策过程(MDP),并通过策略迭代针对工作证明(PoW)区块链优化对抗策略(双重支出和自私挖掘[7])。Halperin[9]为Black-Scholes-Merton(BSM)模型的离散时间版本构建了一个MDP[10][11],并使用无模型Q学习证明了股票期权的最优套期保值和定价[12]。Buehler等人[13]提出了一个DRL框架,以对冲交易成本下的衍生品组合,该框架不依赖于特定的市场动态。Jiang等人【14】使用无模型深层决定论策略梯度(DDPG)[15]动态优化加密货币投资组合。同样,Liang等人。

板凳
大多数88 在职认证  发表于 2022-6-14 10:58:57
[16] 通过使用DDPG和Proximal Policy Optimization(PPO)优化股票投资组合【17】。动态投资组合优化确实是投资行业从业者最常遇到的问题之一。它的三个主要范式是1)均值方差、2)凯利准则和3)风险平价。均值方差计算效率边界(EF),EF定义为在任何给定风险水平下产生最高可实现平均超额回报的投资集合。凯利准则最大化了投资组合的预期几何增长率。风险平价通过与不同投资组合组成部分的回报波动率成反比的权重来平衡不同投资组合组成部分的风险。实际上,Kelly准则是均值-方差的一种特殊情况,在收益相关性和Sharpe比率的某些条件下,风险平价会崩溃为均值-方差。这两个事实意味着投资组合优化问题可能有一些普适解。问题是确定最佳投资组合权重(组成部分投资的资本配置分数)的动态跨期过程,该权重能够在一定的风险预算下最大化投资组合的预期回报。未来市场状态的不确定性(即投资回报很难以足够的精度连续预测)使其成为连续状态和行动空间中的随机最优控制问题,这一问题可以通过无模型RL来解决。本文简要介绍了投资组合优化问题中基于价值和基于策略的无模型RL方法。

报纸
nandehutu2022 在职认证  发表于 2022-6-14 10:59:03
通过检查针对该问题的现有方法,我们确定了当今投资组合经理在将无模型RL应用于其投资组合时所面临的一些尚未解决的关键问题和困难。本文的组织结构如下。在第二章中,我们回顾了三种主要的投资组合范式,并推导出它们的等价性。在第三章中,我们将研究应用于投资组合优化问题的各种无模型RL方法。在第4章中,我们对无模型RL的问题进行了详细的讨论。投资组合优化在本章中,我们首先简要概述了投资组合优化的三个主要范式,即均值方差、凯利准则和风险平价。随后,我们通过推导马科维茨-凯利等价和马科维茨-RP等价,证明了后两者都崩溃为均值方差。2.1. 均值方差马科维茨的现代投资组合理论(MPT)[19]是投资组合优化的主导范式。它包括计算均值-方差有效边界(EF),该边界被定义为一组投资,这些投资相对于以标准偏差衡量的任何给定风险水平的无风险利率产生最高的可实现平均超额回报。具体来说,考虑一个由n个投资组成的宇宙,其回报为x,平均值为μ,标准偏差为σ,协方差矩阵为∑=[σij](其中σii=σi2,σij=ρijσiσj,对于i≠  j) ,以及投资组合权重向量ω。通过最小化拉格朗日函数w.r.t.ω:L(ω,γ,λ)=12ωt∑ω,可获得无约束投资组合优化问题(即完全投资∑ωi=1,目标平均值μp)的解-γ(ωT1n-1)-λ(ωTμ-μp)(1)其中γ和λ是乘数,ωT∑ω是投资组合方差Var(ωTx),1n是n个1的向量。

地板
可人4 在职认证  发表于 2022-6-14 10:59:07
解析解见【22】,但遗憾的是,解析解不实用,因为获得的权重非常不稳定,可能是负值。对于不等式约束优化问题(不存在解析解),Markowitz开发了临界线算法(CLA)[20][21],它不仅优化了受线性不等式约束的一般二次函数,而且还保证了在经过有限次迭代以及整个EF后可以找到精确的数值解。使用CLA可以构建最小方差投资组合(MVP),它是经过训练的EF(不允许卖空)中最左边的投资组合,以及最大夏普比率投资组合(MSRP;又称相切投资组合)1。然而,众所周知,CLA解是不稳定的,因为回报预测的微小偏差将导致算法产生截然不同的投资组合【23】。这是因为当协方差矩阵在数值上是病态的(即,具有高条件数)时,精度矩阵或反向协方差矩阵容易出现较大的错误【24】。洛佩斯·德普拉多(López de Prado)[25]对此问题进行了详细讨论。也就是说,当我们向投资组合中添加相关的多重共线投资时,协方差矩阵的条件数会增加,在某一点上,该数字会变得非常高,以至于数值误差使精度矩阵太不稳定,以至于协方差矩阵中的任何条目上的微小变化都会导致非常不同的相反结果。因此,组合成分之间的多重共线性越强,协方差矩阵的条件数越高,因此精度矩阵越不稳定。

7
可人4 在职认证  发表于 2022-6-14 10:59:09
因此,当更需要找到多元化投资组合时,CLA算法可能会失败(又称马科维茨诅咒)。已经针对这个问题提出了各种解决方案(见[25]),但我们不会在本文中详细介绍。1 Bailey&López de Prado公开提供了一个用于MVP和MSRP投资组合构建的CLA算法的Python实现。32.2. Kelly准则投资组合优化的另一个主要范式是Kelly准则[27][28],它包括最大化投资策略的最终财富(或中间值[29])的预期对数,提供最佳的每笔交易头寸规模,最大化长期重复交易的几何增长。它还将达到给定财富目标的预期时间减至最少,并逐渐主导所有本质上不同的策略[30][31]。它采用简单的代数形式:k=(pa)-(1- pb)(2)其中k∈  [0,1]是策略的最佳仓位大小,p是每笔交易的获胜概率,a是每笔交易的预期净损失,b是预期净收益(推导见[32])。这里的一个重要含义是,k的价值并不取决于该策略所进行的交易总数,因此它是短视的2。多元无模型Kelly准则投资组合(KCP)[35]考虑了投资组合中的九项投资。对于每个指数为i=1的投资。。。,n我们用xi表示回报,用ωi表示财富分数(我们从总财富1开始)。剩余财富(1∑ωi)投资于无风险资产,回报率为rf。

8
nandehutu2022 在职认证  发表于 2022-6-14 10:59:13
然后将KCP投资组合定义为权向量ωKCP,即:ωKCP=argmaxω∈RnE[对数((1+rf)+∑i=1nωi(xi-rf))](3),将其展开为ω0=[0,…,0]T附近的泰勒级数后,可作为二次优化问题求解(无约束解见[35])。可以使用数字优化器获得经过培训的解决方案(即无杠杆和无卖空)。KCP投资组合通常会导致风险非常高的短期行为,因为Garithm缺乏风险规避,因此会在投资组合中进行大量集中投资,因此至少在短期内会有相当大的损失【36】。由于上述非多元化和过度集中,因此,投资行业中的投资组合经理并不普遍使用KCP,除非他们寻求卓越的长期回报。间接证据表明,乔治·索罗斯(GeorgeSoros)和沃伦·巴菲特(WarrenBuffett)是凯利(Kelly)投资者,因为他们的投资组合集中在新兴投资领域。为了保护KCP投资组合免受不良情景后果的影响,建议降低押注金额,并在多个不相关投资中进行多样化。2.3. Markowitz-Kelly EquivalenceLaureti等人[37]表明,当投资组合组成部分的平均回报率和波动率很小且不存在无风险资产时,KCP取决于约束EF(见图1)。这表明KCP是马科维茨投资组合的特例。

9
可人4 在职认证  发表于 2022-6-14 10:59:16
事实上,马科维茨自己指出,“在EF上有一个点近似地使E最大化[ln(W1)]”[38]。2事实上,如果p、a和b的真值是先验已知的,则k的值保持不变[33][34]。4图1(摘自[37]第7页):三种风险资产的有效边界、受限有效边界(无卖空)和KCP投资组合。为了说明这两个投资组合之间的相似性,我们现在在第2.1节中使用风险规避常数λ安排Markowitz的投资组合优化问题,该常数是投资者接受额外风险所需的额外预期回报量(即第二个中心时刻):e[ωTx]-λVar[ωTx]=μTω-δ2ωT∑ω(4),其中δ=2λ[39]。由于Var(ωTx)=E[(ωTx)2]–E[ωTx]2,并且在大多数实际情况下E[ωTx]<1,我们可以假设E[ωTx]>> E[ωTx]2~0,因此重写。h、 式4的s为:E[ωTx]-λE[(ωTx)2]。(5) 现在,我们考虑无风险率为零的KCP,并将公式3改写为:ωKCP=argmaxω∈RnE[对数(1+ωTx)]。(6) 对于| x | 1和≦ x个≠ -1: 对数(1+x)=∑k=1∞(-1) k+1(xkk)(7)我们可以将等式6中的E[log(1+ωTx)]重写为:E[∑k=1∞(-1) k+1(ωTx)kk]≈E类[∑k=12(-1) k+1(ωTx)kk]。(8) 扩展公式8的r.h.s.,得到5E[(-1) 1+1(ωTx)11+(-1) 2+1(ωTx)22]=E[(ωTx)11+(-1) (ωTx)22]=E[ωTx]-12E[(ωTx)2](9),相当于马科维茨投资组合(等式5),λ=0.5[41]。我们将其称为弱风险规避投资者最优投资组合的Markowitz-Kelly等价,并将Markowitz-Kelly投资组合(MKP)ωMKP定义为:ωMKP=argmaxω∈RnE[ωTx]-12E[(ωTx)2]。(10) 重申一下,MKE有三个假设:1。投资者的风险厌恶程度较弱(λ=0.5)。2、预期算术日收益率小于100%(即,[ωTx]<1)。3.

10
kedemingshi 在职认证  发表于 2022-6-14 10:59:21
二阶泰勒级数充分逼近log(1+ωTx)。我们假设第一个假设已经给出,第二个假设将根据经验持有许多投资。如果投资组合产生高阿尔法(即,e[ωTx]>0),且其每日收益率为正偏态,即其概率密度函数具有粗右尾(即,e[(ωTx)3]>0)[41],则第三个概率密度函数将被违反。然而,正如大卫·E·肖(DavidE.Shaw)所说,“随着时间的推移,定量交易变得越来越具有挑战性”[42],我们认为第三种假设在许多情况下也成立。我们认为,MKP投资组合并不特别实用,因为实际上E[ωTx]为0.5>> E[(ωTx)2],换句话说,它们有效地最大化了算术平均值。当投资者被限制只下注一次或重复下注相同的绝对金额而无需再投资利润时,算术平均值最大化是最优的【27】,而投资组合优化问题则不是这样。2.4. 风险平价风险平价(RP)是投资组合管理中的另一个主要范式,在2008年金融危机之后,该范式主要在高风险厌恶投资者中流行,在这场金融危机期间,标准普尔500指数损失了约50%的价值。这个想法很简单,可以平衡投资组合组成部分的风险或回报波动。其中一个优点是,它没有像我们在第2.1节中讨论的Markowitz投资组合中的回报估计错误那样的敏感性问题,因为RP只需要估计成分回报波动率,这比回报预测更稳健[43]。该范式主要有两种方法:等独立风险(ESR)和等风险贡献(ERC)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 08:01