楼主: kedemingshi
1863 34

[量化金融] 金融投资组合的无模型强化学习:简介 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-14 10:59:23
ESR投资组合使组成部分权重和组成部分回报波动率的乘积相等,使权重与波动率成反比:ωi=σi-1.∑j=1Nσj-1(11)而ERC投资组合平衡了各组成部分对投资组合效用的贡献:6RCi=ωi(∑ω)i√ωT∑ω(12),不存在解析解。ERC也可以被解释为一个投资组合,其中,根据投资组合本身,组成部分权重与其beta成反比【44】。ESR和ERC都要求使用杠杆来实现预期的回报或风险目标,这可能会增加下行风险,也可能会由于营业额加剧而增加交易成本。2.5. 第2.1节中的Markowitz RP等效Markowitz投资组合优化问题也可以使用常数相对风险规避(CRRA)效用重新安排:U(W)=W1-γ-11- γ(13),其中W是投资者的财富,γ>0是恒定的风险规避(γ=0表示风险中性)。假设风险资产的价格遵循带参数(μ,σ)的标准几何布朗运动(GBM),投资组合由一项风险资产(夏普比率s)和一项无风险资产组成。然后,对therisky资产的最佳配置被定义为:ω*=(μ–rf)/γσ2=s/γσ(见[18])。现在,设σ=[σ1,…,σN]T为N个风险资产的标准差向量,D=diag(σ)为N×N对角矩阵,σ为其对角元素,C为资产的相关矩阵,因此∑=DCD。

12
mingdashike22 在职认证  发表于 2022-6-14 10:59:27
让我们进一步假设所有风险集都具有相同的常数夏普比k=(μ–rf)/σ,并且所有成对相关都是相同的(即,对于i,ρij=ρ≠ j) ,这意味着:C1N=[1+(N–1)ρ]1N。因此,C-11N=11+(N-1) ρ1N(14),我们得到:Dω*=D[1γ∑-1(μ-rf)]=1γD(D-1C级-1D-1) kσ=kγC-11N=kγ[1+(N-1) ρ]1N。(15) 这意味着:ωi*=kγ[1+(N-1) ρ]σi, i(16),相当于马科维茨投资组合,具有相等的独立风险和相等的风险贡献【18】。我们将其称为相同夏普比率和成对相关性下的Markowtiz RP等价(显然,这些假设纯粹是假设性的)。无模型强化学习Markowitz-Kelly等价和Markowtiz-RP等价给了我们一个巨大的启示,即投资组合优化问题可以有一些通用的解决方案。这是一个动态的跨期过程,用于确定最佳投资组合权重,从而在一定的风险预算下最大化投资组合的预期回报。未来市场状态的不确定性使其成为连续状态空间和行动空间中的随机最优控制问题,这个问题可以通过无模型强化学习(RL)来解决。在本章中,我们将讨论一些现有的基于价值和基于策略的无模型RL方法,以解决portfoliooptimization问题。3.1. 概述可以假设投资组合优化问题可以重新表述为离散时间(部分可观测)马尔可夫决策过程(MDP),因此可以表述为离散最优控制,其中离散时间内控制的系统是由多个投资组成的一个投资组合,控制是投资组合权重(资本配置的分数)。

13
何人来此 在职认证  发表于 2022-6-14 10:59:31
然后,通过贝尔曼最优方程3中作为回报的投资组合收益的顺序最大化来解决该问题。如果MDP是完全确定的(或状态转移概率已知),并且如果还知道一个报酬函数,则可以使用动态规划(DP)的递归向后值迭代法(recursivebackward value iteration method)求解Bellman最优性方程。另一方面,如果系统动力学未知,需要从样本中计算最优策略,则可以使用无模型强化学习(RL)来解决问题。在投资组合优化中,既不知道未来的投资回报,也不知道状态转移概率。因此,MDP是不确定的,可以使用它来解决问题。对于无模型RL方法,不需要任何投资回报模型,因为Bellman最优方程可以在不了解任何基本动力学的情况下近似求解,但仅依赖于样本数据。让我们考虑投资组合优化问题的标准RL设置。在每个时间步骤t,代理观察当前状态st∈ S并在选择操作∈ aa根据其政策π。代理随后观察下一个状态st+1并接收标量奖励rt=r(st,at)。Rt公司=∑k=t∞γk-tr(sk,ak)(17)是从时间步t开始的总累计回报,带有贴现因子γ∈ (0,1).对于投资组合优化问题,Rt通常被一些初始财富W0的未贴现累积财富Wt替换:Wt=W0∏k=1t(1+rk)。(18) 状态值Vπ(s)=E[Rt | st=s;π]是状态中下列策略π的预期回报。以类似的方式,状态动作值或Q值Qπ(s,a)=E[Rt | st=s,a;π]是在状态s中选择动作a并遵循策略π的预期返回。

14
能者818 在职认证  发表于 2022-6-14 10:59:40
然后,将最优状态动作值定义为Q*(s,a)=maxπQπ(s,a),最优动作asa*=argmaxa Qπ(s,a)。代理的目标是最大化从启动状态的预期回报,由性能目标表示:J(π)=E[R0 |π]。最优政策,3如果回报不受波动性的惩罚,它将类似于风险中性投资者(λ=0)。8这是在RL中获得的目标,因此定义为:π*=argmaxπJ(π)。RL利用了称为Bellman方程的递归关系:Qπ(st,at)=E[r(st,at)+γE[Qπ(st+1,at+1)]](19),如果目标策略是确定性的(μ:S),则可以在没有内部期望的情况下重写该关系→A) :Qμ(st,at)=E[r(st,at)+γQμ(st+1,at+1)]。(20) Qμ可以从策略中学习,使用从一些不同的随机行为策略生成的转换。3.2. 基于价值的方法在无模型和基于价值的RL方法(如Q-Learning[12])中,agent的行为不是通过直接找到最优策略π*来确定的,而是通过获得最优状态行动值函数Q*(s,a),其收敛性在确定性和随机框架内的Q-Learning中都得到保证[45][46]。Q*(s,a)经常被神经网络所逼近,因为它具有普遍逼近和表示学习的能力(这对于产生Bellman维数灾难的大型状态空间和动作空间是理想的)。神经网络的使用也比单个Q表更有效,因为网络可以从代理已经遇到的状态进行泛化,从而减少内存使用和计算量。

15
何人来此 在职认证  发表于 2022-6-14 10:59:42
然而,引入非线性函数逼近器意味着不再保证收敛。Q-Learning旨在直接逼近最优状态作用值函数:Q*(s,a)~ Q(s,a;θ),其中Q(s,a;θ)是一个具有参数向量θ的近似状态作用值函数。在一步Q-学习中,通过迭代最小化损失函数序列来学习参数,其中第i个函数定义为:Li(θi)=E[r+γmaxa‘Q(s’,a’;θi-1)-Q(s,a;θi)]2(21),其中s’是代理在状态s之后立即观察到的下一个状态。Q-Learning isoff策略,因为Q不是由行为策略(即直接从Q本身派生的策略)生成的转换更新的。深度Q网络(DQN)[2]使用深度神经网络(DNN),最初是一种进化神经网络(CNN),用于学习高维状态的低维特征表示,也用于所有离散动作的状态作用值函数Qπ(s,a)的函数近似。DQN代理学习基于ε-贪婪的探索策略,其中它选择概率为1–ε的随机操作,使用从经验重播缓冲区中采样的随机小批量,该缓冲区是一个有限大小的缓存,存储代理经历的样本转换:(st、at、rt、st+1),以移除样本相关性。在学习之后,agent可以在网络的单个正向过程中选择最优动作a*,但它不能直接应用于连续域,因为在连续间隔中找到a*需要在每个时间步进行迭代优化过程。天真地将空间离散化会受到维度诅咒的影响,即离散化的数量会随着自由度的增加呈指数增长。Du等人。

16
nandehutu2022 在职认证  发表于 2022-6-14 10:59:46
【47】在离散化市场状态下使用Q学习(无神经网络)优化无风险资产(现金)和风险资产(股票市场组合)的投资组合,并在每个再平衡期考虑交易成本。使用不同类型的投资绩效9指标构建三状态行动价值函数;即累计利润、夏普比率和差异夏普比率(DSR)[48]。DSR可以被视为边际效用,即投资者愿意为夏普比率的一个单位增量承担多少风险。作者发现,投资组合的绩效因状态行动价值函数的类型而异,并表明使用DSR函数的投资组合取得了最佳绩效。然而,他们没有特别提到结果是否是在抽样测试中获得的。投资组合表现的巨大差异可能归因于以下事实:1)在没有保证的凸性的情况下,在任意Q值函数中确定全局最优策略通常是不可行的;2)Q学习在最优策略选择的噪声数据集中存在不稳定性。作者得出的结论是,基于策略的RL方法(我们将在下一节中介绍)比基于值的RL方法更稳定、更高效。Jin和El Saawy【49】试图通过使用Q学习和神经网络来优化两支股票(高贝塔股票和低贝塔股票)的投资组合,该神经网络以类似于DQN的方式逼近状态动作值函数(尽管他们使用多层感知器MLP,而不是CNN)。输入特征(无离散化)是历史股价、每只股票的流通股数量、总投资组合价值和剩余现金金额。

17
mingdashike22 在职认证  发表于 2022-6-14 10:59:49
代理人的行动是低贝塔股票被出售和高贝塔股票被购买的投资组合的百分比,其行动空间被离散为七个百分比(+/-25%,+/-10%,+/-5%,0%)。考虑交易成本的回报函数是投资组合收益或夏普拉蒂奥,两者都受到投资组合波动性的惩罚。在DQN中,使用ε-贪婪探索策略和经验重播缓冲区对agent进行训练。样本外检验结果表明,投资组合的绩效显著不同,这取决于绩效指标、股票价格历史的长度和波动率惩罚。最高的平均夏普比率是使用波动率惩罚的投资组合回报获得的。Weijs【50】还通过使用Q-学习和一个近似于状态行动值函数的神经网络来解决投资组合优化问题,资产回报是唯一的输入特征,无需离散化,也无需对回报分布进行任何假设。作者构建了短期国库券、长期国库券和风险股票市场组合(考虑交易成本)的投资组合。奖励剪切[51]用于重新缩放范围[-1,1]内的奖励。若奖励主要是正的,它将导致Q值几乎单调增长,从而变得不收敛。据称,Q-Learning方法在历史样本外测试中实现了二阶随机优势,即与风险中性投资者(较高的预期回报)以及风险厌恶投资者(较低的标准偏差)具有可比性。还声称,由于该方法很少对资产进行充分投资的保守策略,营业额较低。3.3. 基于策略的方法3.3.1。

18
何人来此 在职认证  发表于 2022-6-14 10:59:57
深层确定性策略梯度在无模型和基于策略的方法中,策略本身直接用θ参数化,以表示最优策略π*~πθ。为此,可以使用条件概率密度πθ(a | s)将性能目标写成:J(πθ)=∫Sρπ(S)∫Aπθ(A∣s) r(s,a)da ds=Es~ρπ,a~πθ[r(s,a)](16),其中s是状态空间,a是动作空间,ρπ是贴现状态分布:10ρπ(s’)=∫S∑t=1∞γtp0(s)p(s→s\',t,π)ds(17),其中p(s→s\',t,π)是从s过渡到时间步t后状态s\'的密度。然后,通过在性能梯度方向上执行随机梯度上升来更新参数θ▽θJ(πθ):θJ(πθ)=∫Sρπ(S)∫A.θπθ(a∣s) Qπ(s,a)da ds=Es~ρπ,a~πθ[θlogπθ(a∣s) Qπ(s,a)](18)(poof见[52]),也称为政策梯度(即政策绩效的梯度)。在实践中,Qπ(s,a)是用samplereturn Rt(如强化算法[53])进行蒙特卡罗估计的,或者用优势函数a(s,a)=Q(s,a)–V(s)的估计代替,用Rt(其本身是Qπ的估计值)和Vπ的学习估计值进行计算。后一种情况可以看作是一种参与者-批评家算法[1],其中策略π是参与者,近似的Vπ是批评家。策略梯度(PG)[52]通过参数概率分布πθ(a | s)=P(a | s;θ)表示策略,该分布根据参数向量θ选择状态s中的动作a,该动作的选择可以是随机的,也可以是确定性的。在随机情况下(又称随机政策梯度;SPG【54】),政策梯度在状态空间和行动空间上进行整合,如公式18所示,而在确定性情况下(又称随机政策梯度)。

19
何人来此 在职认证  发表于 2022-6-14 11:00:00
确定性策略梯度;DPG【55】)它只在状态空间上进行积分。因此,SPG可能需要比DPG更多的样本,特别是如果actionspace有许多维度。深度确定性策略梯度(DDPG)[15]是一种无模型、非策略和参与者-批评家方法,它将基于策略的DPG和基于值的DDQN结合在一起,用于大型连续域,其中参与者是一种参数化决策策略μ(s |θμ),使用Bellman方程进行学习,如基于批评家反馈的Q-学习中所述,这是状态动作值函数Q(s,a)。在此过程中,该算法将DPG减少的方差与Q学习引入的偏差进行权衡。通过沿策略梯度方向执行梯度上升来更新参与者▽θμJ:θμJ≈E类[θμQ(s,a∣θQ)∣s=st,a=μ(st∣θμ)]=E[aQ(s,a∣θQ)∣s=st,a=μ(st)θμμ(s∣θμ)∣s=st](19)(有关证明,请参见[55])。将神经网络用于RL时的一个挑战是,大多数优化算法假设i.i.d.样本,而当样本是在环境中通过顺序探索生成时,这种假设不再成立。DQNand和DDPG都通过使用体验重播缓冲区来解决这个问题。在每个时间步,通过从缓冲区中采样一小批不相关的转换来更新因子和评论家。此外,为了有效地学习和发现在具有不同状态值尺度的环境中泛化的超参数,DDPG使用批次标准化,即对amini批次中样本的每个特征维度进行标准化,以获得单位均值和方差。Jiang等人【14】为投资组合优化问题提出了一个类似DDPG的解决方案(没有参与者临界体系结构)。

20
nandehutu2022 在职认证  发表于 2022-6-14 11:00:05
他们使用由投资组合组成资产的最高、最低和收盘价组成的输入特征作为连续状态,并使用深度神经网络(DNN)近似的策略函数来训练代理人——作者称之为完全相同的独立评估者的集合(EIIE;图2),它评估每项资产在不久的将来的潜在增长——使用11充分利用DPG,以便直接计算一组投资组合权重作为代理的操作。DPG遵循状态行动值函数的梯度,在大小写中,它只是在采取行动后立即获得的调整后样本回报率rt/tf,其中rt是时间t时投资组合的对数回报率,tf是整个投资组合管理期的长度。然后,它根据EIIE4中最后一个隐藏层的softmax投票分数,确定约束连续空间(即,具有完全投资和非负约束的投资组合权重)内的操作。我们注意到,他们的方法往往以极端权重结束(过度集中于极少数资产),因为它没有考虑投资组合的波动性(即,回报函数是周期对数回报的显式平均值,而不受投资组合波动性的任何惩罚),因此,它类似于KCPportfolio(第2.2节)。此外,这种极端权重通常在短时间内在0和1之间交替,显示出不稳定性。此外,该方法只能用于买入并持有策略,这不是特别普遍的。图2(摘自[14]第14页):相同独立评估器(EIIE)拓扑集合的卷积神经网络(CNN)版本。郭等人。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 19:56