楼主: kedemingshi
1858 34

[量化金融] 金融投资组合的无模型强化学习:简介 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-6-14 11:00:09
[61]使用卷积神经网络(CNN)直接逼近最优策略函数,其中代理的目标是最大化100只随机选择股票的投资组合的预期对数回报(即对数最优投资组合)。因此,它类似于KCP投资组合,但其目标函数受到投资组合波动性的惩罚(无交易成本)。他们将此框架称为带强化学习的鲁棒对数最优策略(RLOSRL)5,其主要优点是它不需要复杂的资产回报密度分布估计,而是需要估计的均值和协方差矩阵。对这两种情况的估计是通过模式匹配来实现的,即计算当前价格回报和历史回报之间的皮尔逊相关系数,并选择系数最高的时间段。网络的输入功能是每只股票的开盘价、最高价和最低价及其交易量。使用泊松分布抽样的经验重播来训练网络,以强调最近的经验。他们的样本外回溯测试表明,RLOSRL在测试期间优于所有基准测试。4使用TensorFlow在Python中的EIIE实现在GPL源代码许可下可在[56]获得。5关于使用TensorFlow在Python中的RLOSRL实现,请参见[62]。123.3.2.  近似策略优化直接用具有多个参数的神经网络逼近最优策略π*是困难的,并且通常会遇到次优解,主要是由于不稳定和样本效率低下。此问题的一个解决方法是on PolicyProximate Policy Optimization(PPO)[17]算法。

22
何人来此 在职认证  发表于 2022-6-14 11:00:13
PPO是信任区域策略优化(TRPO)[57]算法的扩展,因此需要首先讨论后者。TRPO的思想是通过两个连续概率分布的Kullback-Leibler(KL)散度来限制每个策略梯度更新:DKL(P,Q)=E[logp(x)Q(x)]=∫-∞∞p(x)logp(x)q(x)dx(20)位于“信任区域”内,以防止更新的策略与以前的策略发生严重偏差。防止破坏性的大规模策略更新,可以在同一样本上运行多个随机梯度上升时期,从而降低样本的效率。设η(θ)=J(πθ)是参数化随机策略πθ的性能。其下界函数M(θ)可定义为:η(θ)≥M(θ)=L(θ)-C·KL=E[πθ(a∣s) πθold(a∣s) ^A]-4 εγ(1-γ)2·maxsDKL(πθ(·∣s) ,πθ旧(· ∣s) )(21)(参见[57]以获取证明),其中L(θ)是当前保单的预期优势函数,通过当前保单与旧保单的概率比进行校准。使用优势函数代替预期报酬J可以减少估计的方差。图3显示了θ处η、M和L之间的关系。图3(摘自[60]第7页):下限函数M(蓝色)。当L离开旧的政策参数θold时,在当前政策参数θ处局部逼近优势函数的精度会降低,但这种不准确度有一个上限,即M中的第二项(等式21)。因此,我们可以通过应用最小化最大化(MM)算法[58]获得最佳参数θ*=argmaxθη(θ),其中策略性能η的改善是单调的。

23
能者818 在职认证  发表于 2022-6-14 11:00:17
然而,在实践中很难找到KL发散的最大值,因此可以轻松地使用平均值(即[DKL])。此外,惩罚系数C很难使用,因为其理论结果将提供步长太小的决策更新。因此,TRPO使用L(θ)作为“替代”目标函数,该目标函数在政策更新大小的约束下最大化:13最大化θE[πθ(a∣s) πθold(a∣s) ^A](22)受E[DKL(πθ(·∣s) ,πθ旧(· ∣s) )]≤ δ(23),其解需要计算二阶梯度及其逆,这使得TRPO有些不切实际。另一方面,PPO只需要一阶梯度,因此更容易实现。设r(θ)表示随机策略的概率比:r(θ)=πθ(a∣s) πθold(a∣s) (24)so r(θold)=1。然后,PPO的无约束替代目标定义为:LCLIP(θ)=E[最小(r(θ)^A,clip(r(θ),1-ε,1+ε)^A)](25),其中ε是定义r(θ)剪裁间隔的超参数。图4说明了此剪裁的效果。在左图中,A>0表示该行动对结果有积极影响。在这种情况下,如果r>1+ε(即,当前政策中的行动比旧政策中的行动更有可能),目标将变平,因此其梯度将变为零,从而阻止随机梯度上升算法进一步前进,以免使行动的可能性过大,从而使政策稳定。另一方面,如果当A>0时,动作的可能性变小(即策略意外变差),梯度仍然为正,因此我们可以通过沿梯度方向上升进行“校正”。图4(摘自[17]第3页):PPO中客观剪裁的影响。同样,在右图上,A<0表示该动作有负面影响。

24
nandehutu2022 在职认证  发表于 2022-6-14 11:00:20
如果在当前政策中行动的可能性变小,我们保证不会太小,以使政策稳定。但是,如果当A<0时,行动变得更有可能(即,政策恶化),目标就会成比例地变得更负,因此它有一个负梯度,我们可以利用这个梯度来恢复上升以纠正政策。Liang等人【16】使用DPG、DDPG和PPO(图5)对Portfolio优化问题进行实验。他们构建了由五只随机的中国股票组成的投资组合,并使用每个RL方法定期优化投资组合,其中风险调整后的回报函数由组成股票的平均价格波动率惩罚。使用的输入功能是最高和收盘价,并添加随机噪声以实现对抗式学习。他们的DDPG还使用了第2.3.3节中的EIIE14拓扑,但使用了深度剩余网络(ResNet)[59],而不是CNN,以解决网络深度增加时的消失和爆炸梯度问题。根据作者的说法,DDPG和PPO即使在训练中也无法学习最优策略,因此他们的结果被完全忽略。具有对抗性学习的DPG是唯一在学习和回溯测试中均优于基准投资组合的方法。作者声称,对抗性学习提高了投资组合的每日回报率和夏普比率,但同时也增加了以最大提取率衡量的下行风险。图5(摘自[16]第8页):演员-评论家PPO拓扑。4.

25
能者818 在职认证  发表于 2022-6-14 11:00:24
结论与讨论在这项调查中,我们回顾了应用于投资组合优化问题的基于价值和基于政策的模型自由强化学习(RL)方法。基于值的RL方法(如Q-学习)的最大缺点是Bellman的维度诅咒,它产生于大的状态和动作空间,使得agent难以有效地探索大的动作空间。Du等人[47]使用描述状态和三种不同的状态-动作-值函数进行Q-学习。Jin和El Saawy【49】使用连续的状态输入,但描述了动作空间,以训练近似于状态动作值函数的神经网络。根据Q值函数的类型(在Du等人的情况下)或绩效指标的类型、股票价格历史的长度以及奖励函数中的波动性惩罚(在Jin&El Saawy的情况下),这两个指标的表现都有显著差异。组合性能的方差可归因于以下事实:1)在没有保证的凸性的情况下,在任意Q值函数中确定全局最优策略通常是不可行的;2)当损失函数中存在随机噪声时,Q学习也会遭受最优策略选择的不稳定性(等式21)。这种随机性可能来自于随机动力学或环境的部分可观测性、奖励函数中的任意不确定性(包括标记中的人为错误)或Q值函数中的认知不确定性(例如,函数近似性差)。另一方面,基于策略的RL方法可以直接应用于大型连续域。

26
大多数88 在职认证  发表于 2022-6-14 11:00:28
然而,使用具有多个参数(包括超参数)的神经网络来逼近最优策略是困难的,并且可能会出现次优解,这主要是由于其不稳定性、样本效率低以及对超参数值选择的敏感性。Jiang等人【14】构建了一个类似DDPG的神经网络框架,该框架具有连续的状态输入,以直接逼近最优策略。他们的代理人产生的投资组合权重类似于我们在第2.2节中讨论的风险kcportfolio,权重通常在短期内在0和1之间交替,显示出高度的不稳定性。Liang等人【16】构建了三种不同的投资组合代理,分别使用DPG、DDPG和PPO以及连续的状态输入,但DDPG和PPO代理都未能在培训中学习最优策略,尽管它们是比DPG更先进的深度强化学习(DRL)方法。无模型RL从一开始就解决了决策问题,即通过迭代更新Q值或调整每个新状态和动作的策略参数,使得其学习过程的动力学基本上依赖于所使用的样本。在投资组合优化问题的特殊情况下,用于培训各种代理人的金融资产的历史价格只是在看似随机实现的特定时间段内市场价格发现复杂过程的一条实现路径。正因为如此,对于投资组合优化问题(以及金融市场中的其他决策问题),无模型RL的效率尤其低。

27
何人来此 在职认证  发表于 2022-6-14 11:00:31
也许更重要的是,它也容易过度拟合,因为使用相同的历史数据集重复训练最终将捕获仅存在于所使用的特定样本集中的随机模式。在这种环境中训练过的代理在未来将拥有零权限,无论他们过去的工作表现如何。此外,如果逼近Q值函数或策略函数的神经网络过于复杂,这也会导致过度拟合,因为当网络具有非常高的自由度时,网络中的所有权重和偏差都可以在内部表示训练数据集中的每个输入。因此,它不会概括任何东西,只会复制以前看到的状态行动和奖励组合。此外,如果将样本外结果重复用作反馈,以更新网络的超参数并在训练集中重新训练代理,则将历史数据集分离为样本内训练集和样本外测试集将毫无意义。阿什比必要多样性定律指出,如果一个系统要稳定,其控制机制的状态数必须大于或等于被控制系统的状态数。最初在DQN中使用的经验重播具有减少样本中顺序或时间相关性的优点,但它仍然不能考虑许多其他可能的状态。与无模型RL不同,基于模型的RL方法可以使用学习模型模拟转换,从而提高采样效率,从而提高稳定性。Yu等人[63]为投资组合优化问题提出了一种基于模型的DRL方法,他们利用GenerativeAdvantarial Network(GAN)[64]生成合成市场数据,以克服样本效率低下的问题。

28
大多数88 在职认证  发表于 2022-6-14 11:00:39
具体而言,他们使用真实的历史价格数据来训练经常性的GAN(RGAN)[65],以产生令人信服的“真实”多维时间序列数据(即最高、最低和收盘价格),他们通过非线性动态Boltzmann机器(NdyBM)[66]和WaveNet[67]进行价格预测,并在模仿学习框架(考虑交易成本和滑动)中训练非政策参与者-评论家DDPG算法。他们的模型也可用于政策参与者-评论家PPO,我们在第3.3.2节中讨论了这一点。尽管我们不知道他们为了校准超参数和重新训练模型而重复了多少次测试,但他们的模型显示了一个很有希望的样本外测试结果。所有使用神经网络的受调查RL方法似乎都基于这样的假设,即过去的资产回报率是未来资产回报率的良好预测值,因为它们都使用过去的历史价格数据作为神经网络的输入特征。然而,事实上,(正如其中一些人承认的那样)资产价格的表现与其过去的表现无关,因此过去往往根本不能很好地预测金融市场的未来。这意味着他们的状态空间对市场环境的代表性不足,这些空间对代理学习最优策略的信息不足。

29
何人来此 在职认证  发表于 2022-6-14 11:00:42
因此,有必要通过使用更有意义的特征(如基本面数据或市场情绪数据)提供更有效和详细的状态表示,并进一步研究这些特征对未来回报的预测能力,然后再尝试将其应用于同样复杂的投资组合优化问题,鉴于许多金融数据集的低信噪比和金融市场的非遍历性,前者的任务将很困难。因此,我们认为,尽管DRL对特征工程的要求很低,但领域知识在特征工程和选择中仍然发挥着重要作用。此外,这些特征应该能够充分预测不同类型投资策略的回报,而不仅仅是买入并持有策略,从而使投资组合更具普遍性。正如Weijs【50】所指出的,机器学习模型的可解释性是将RL应用于投资组合优化问题的另一个重要问题,因为机构投资者不希望在金融或经济理论无法解释的模型中,也不希望在人力投资组合经理无法负责的模型中,冒大量资本风险。深层神经网络(DNN)是一个“黑箱”,因为它们的隐藏层表现出多对多的复杂关系。在DRL中,必须通过agent与环境的试错交互来推断最优策略,其中agent基本上是由NN黑箱驱动的,agent收到的唯一学习信号是标量奖励。奖励函数很难设计,在许多问题中很难发挥作用。

30
何人来此 在职认证  发表于 2022-6-14 11:00:45
如果事先没有正确指定,代理最终可能会陷入局部极小值,导致意外和不可预测的行为,这可能会在实际的投资组合管理中造成巨大的财务损失。最后但并非最不重要的一点是,RL中的(臭名昭著的)信贷分配问题,即代理行为的后果只在环境多次转换后才显现的情况,是投资组合优化问题中的另一个问题。虽然这些行动始终旨在以一定的再平衡频率(换句话说,信贷分配的时间框架已明确定义)最大化投资组合的(风险调整后)回报,但由于金融市场的非遍历性,信贷分配的结构可能会随着时间的推移而变化,这会带来分配的不确定性,可能会导致代理仅(事后)了解随机策略。参考文献[1]Sutton,R.G.和Barto,A.G.《强化学习:导论》。麻省理工学院出版社,1998年。[2] Mnih,V.,Kavukcuoglu,K.,等。通过深度强化学习进行人类水平控制。《自然》,518(7540):529–53320015。[3] Hessel,M.,Modayil,J,et al.《彩虹:深度强化学习中的组合改进》。ArXiv:1710.022982017。[4] Silver,D.,Huang,A.,等。通过深度神经网络和树搜索掌握围棋游戏。《自然》,529(7587):484–4892016。[5] Silver,D.,Hubert,T.,等人。一种通用的强化学习算法,可以掌握国际象棋、shogi和自我游戏。《科学》,3621140–11442018年。[6] Gervais,A.、Karame,G.O.等,关于工作证明区块链的安全性和性能。区块链协议分析和安全工程,2017年1月17日[7]Eyal,I.,和Sirer。E、 G.多数还不够:比特币开采很脆弱。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 01:42