楼主: 何人来此
604 19

[量化金融] 项目组合管理中的对抗式深度强化学习 [推广有奖]

11
大多数88 在职认证  发表于 2022-6-10 13:36:19
此外,如果没有一些好的特性(如凸性)的保证,在任意Qvalue函数中确定全局最优策略可能是不可行的。DDPG解决连续控制问题的答案是适应策略梯度,其中DDPG由一个直接输出连续动作的参与者组成。然后,将根据Critic对政策进行评估和改进,Critic实际上是表示目标函数的Q值函数近似器。回想一下马尔可夫决策过程的目标:导出目标函数最大化的最优策略。通过θ参数化,我们可以将其形式化为:τ=(s,a,s,a,…)J(πθ)=Eτ~pθ(τ)[Xtγtr(st,at)]πθ*= arg maxπθJ(πθ)=arg maxπθEτ~pθ(τ)[Xtγtr(st,at)]=arg maxπθEτ~pθ(τ)[r(τ)]=arg maxπθZπθ(τ)r(τ)dτ在深度强化学习中,梯度下降法是优化给定目标函数的最常用方法,通常是非凸和高维的。目标函数的导数等于政策的导数。假设时间范围是有限的,我们可以将策略写成乘积形式:πθ(τ)=πθ(s,a,…,sT,aT)=p(s)TYt=1πθ(aT | sT)p(sT+1 | sT,aT),然而,这种形式很难根据θ进行导数。为了使其更易于计算,建议将其转换为求和形式:θπθ(τ) = πθ(τ)θπθ(τ)πθ(τ)= πθ(τ)θlogπθ(τ)θlogπθ(τ)=θ(log p(s)+TXt=1logπθ(at | st)+log p(st+1))=TXt=1θlogπθ(at,st)因此,我们可以将objectivefunction的微分重写为policy的对数:J(πθ)=Eτ~πθ(τ)[r(τ)]=Eτ~πθ(τ )[θlogπθ(τ)r(τ)]=Eτ~πθ(τ)[(TXt=1θlogπθ(at | st))(TXt=1γtr(st,at))]在深度确定性策略梯度中,需要四个网络:在线参与者、在线评论家、目标参与者和目标评论家。结合Q-学习和策略梯度,参与者是函数u,批评家是Q-值函数。

12
何人来此 在职认证  发表于 2022-6-10 13:36:22
代理服务于一个国家和行动者将提供一个“最优”的行动不连续的行动空间。然后,在线评论家将评估演员的提议并更新在线演员。此外,目标参与者和目标评论家用于更新OnlineCritical。形式上,DDPG的更新方案如下:对于在线参与者:θuJ≈ 美国东部时间~ρβ[θuQ(s,a |θQ)| s=st,a=u(st |θu)]=Est~ρβ[aQ(s,a |θQ)| s=st,a=u(st)θu(s |θu)| s=st]对于在线评论家,更新规则类似。目标actor和目标Critical由在线actor和OnlineCritical温和更新。我们将在算法演示中留下详细信息:算法1 DDPG1:随机初始化actoru(s |θu)和critist Q(s,a |θQ)2:通过θQ创建Qandu→ θQ,θu→ θu3:初始化重播缓冲区R4:对于i=1到M do5:初始化UO进程N6:接收初始观察状态s7:对于t=1到t do8:选择操作at=u(st |θu)+Nt9:执行操作at并观察rtand st+110:在R11中保存过渡(st,at,rt,st+1):在R12中随机抽取N个过渡(si,ai,ri,si+1)的小批量样本:设置yi=ri+Q(si+1,u(si+1 |θ)| Q)13:通过最小化更新批评家损失:L=NPi(yi-Q(si,ai |θQ))14:按策略梯度更新参与者策略:θuJ≈NXi公司θuQ(s,a |θQ)| s=st,a=u(st |θu)θu(s |θu)| st15:更新目标网络:θQ→ τθQ+(1- τ) θQθu→ τ θu+ (1 - τ) θu16:结束FOR 17:结束forB。最近策略优化大多数策略优化算法可分为三大类:(1)策略迭代方法。(2) 策略梯度方法和(3)无导数优化方法。近端策略优化(PPO)属于第二类。

13
大多数88 在职认证  发表于 2022-6-10 13:36:25
由于PPO基于信任区域政策优化(TRPO)[19],我们将首先介绍TRPO,然后介绍PPO。TRPO确定了政策改进的下限,以便政策优化能够处理替代目标函数。这可以保证政策的单调改进。形式上,让π表示一个随机策略π:S×a→ [0,1],这表示策略将在给定状态下导出分布不连续的动作空间,以表示所有动作的能力。设η(π)=Es,a,。。。[∞Xt=0γtr(st)]s~ ρ(s),at~ π(在| st),st+1~ P(st+1,at+1 | st,at)遵循状态作用值函数Qπ、值函数Vπ和以下优势函数的标准定义:Vπ(st)=Eat,st+1,。。。[∞Xl=0γlr(st+l)]Qπ(st,at)=Est+1,at+1,。。。[∞Xl=0γlr(st+l)]Aπ(s,A)=Qπ(s,A)- Vπ(s)另一个保单的预期收益|π超过π可以用时间步长上累积的优势来表示:η(|π)=η(π)+Es,a···~~π[∞Xt=0γtAπ(st,at)]上述方程可以用状态重写:η(|π)=η(π)+∞Xt=0XsP(st=s | |π)Xa |π(a | s)γtAπ(s,a)=η(π)+Xs∞Xt=0γtP(st=s |π)Xaπ(a | s)aπ(s,a)=η(π)+Xsρπ(s)Xaπ(a | s)aπ(s,a),其中ρπ=P(s=s)+γP(s=s)+表示给定政策的折扣访问频率。然而,由于依赖政策|π而导致的复杂性使得方程难以计算。

14
大多数88 在职认证  发表于 2022-6-10 13:36:35
相反,TRPOproposes使用以下局部近似值。Lπ(¢π)=η(π)+Xsρπ(s)Xa¢π(a | s)aπ(s,a)作为TRPO的关键结果之一,政策改进的下界为单调政策改进提供了理论保证:η(πnew)≥ Lπ旧(π新)-4.γ(1 - γ) α在哪里 = maxs,a | aπ(s,a)|α=DmaxT V(πold,πnew)=maxsDT V(πold(·| s)|πnew(·| s))DT V(p | | q)=Pi | Pi-qi |是两个离散概率分布之间的总变化发散距离。自DKL(p | | q)起≥ DTV(p | | q),我们可以导出以下不等式,用于构造算法:η(|π)≥ Lπ(¢π)- CDmaxKL(π,~π),其中c=4γ(1 - γ) DmaxKL(π,|π)=maxsDKL(π(·| s)| |π(·| s))【19】中提供了上述方程的证明,让Mi(π)=Lπi(π)来进一步详细说明-CDmaxKL(πi,π)。在没有太大困难的情况下,可以发现以下两个特性:η(πi)=Mi(πi)η(πi+1)≥ Mi(πi+1)因此,给出了政策改进的下界:η(πi+1)- η(πi)≥ Mi(πi+1)- Mi(πi)因此,通过在每次迭代中最大化Miat,我们保证真正的目标η是非递减的。考虑参数化策略πθi,策略优化可以转化为:maxπθi[Lπθi-1(πθi)- CDmaxKL(πθi-1,πθi)]然而,理论结果中的惩罚系数C将提供步长过小的政策更新。而在最终的TRPO算法中,在仔细考虑了目标函数的结构后,提出了另一个优化问题:maxπθiLπθis。t、 Dρπθi-1kg(πθi-1,πθi)≤ δ式中,DρKL(πθ,πθ)=Es~ρ[DKL(πθ(·| s)|πθ(·| s))]提出了进一步的近似,以使优化易于处理。回顾原点优化问题可以写成:maxπθXsρπθi-1(s)Xaπθi(a | s)aθi-1(s,a)经过一些近似,包括重要性抽样,最终优化为:maxπθiEs~ρπθi-1,a~q[πθi(a | s)q(a | s)aπθi-1(s,a)]s.t。

15
何人来此 在职认证  发表于 2022-6-10 13:36:38
锿~ρπθi-1[DKL(πθi-1(·| s)|πθi(·| s))]≤ δ因此,PPO出现了【9】:它提出了新的替代目标,以简化TRPO。其中一个是我们在实验中选择的裁剪替代目标。让我们表示(θ)=πθ(a | s)ππ老(a | s)。裁剪的代理目标可以写为:LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1- , 1 + )A) ]此网络代理目标函数可以以更简单的方式约束更新步骤,实验表明,它在样本复杂性方面确实优于原始目标函数。算法2 PPO1:初始化actoru:S→ Rm+1和σ:S→ diag(σ,σ,···,σm+1)2:对于i=1到m do3:运行策略πθ~ N(u(s),σ(s)),对于T时间步和collect(st,at,rt)4:估计优势^at=Pt>TγT-trt公司- V(st)5:更新旧策略πold← πθ6:对于j=1到N do7:通过策略梯度更新actor策略:XiθLCLIPi(θ)8:通过以下方式更新评论家:L(φ)=-TXt=1^At9:结束FOR 10:结束forV。

16
mingdashike22 在职认证  发表于 2022-6-10 13:36:41
对抗性学习虽然深度强化学习在投资组合管理中具有潜力,因为它能够捕捉非线性特征,先验假设低,与人文投资相似,但有三个主要特征值得注意:o金融市场高度波动和非平稳,这与游戏或机器人控制完全不同o传统的强化学习是为有限期MDP而设计的,而投资组合管理寻求最大化绝对投资组合价值或其他目标的有限时间o在游戏或机器人控制中,不需要分割训练集和测试集,而在金融市场中,在回测中表现令人满意essentialin评估策略o股票市场对投资组合价值有明确的表达,这在游戏和机器人控制中是不存在的。因此,近似值函数是无用的,甚至可能由于偏差和近似误差而恶化代理的性能。因此,需要进行一些修改,以便将此方法应用于投资组合管理。采用平均回报率而非贴现回报率可以缓解有限期和有限期之间的矛盾。在我们的实验中,我们发现,DDPG和PPO都有不令人满意的绩效内定过程,这表明他们即使在训练集中也无法找出最优策略。针对投资组合管理中对深度强化学习更高的鲁棒性和风险敏感性要求,我们提出了所谓的对抗式培训。事实上,风险敏感的MDP和稳健的MDP都是两种更可取的方法,尤其是在投资组合管理中。LA Prashanth等人设计了动作临界算法,用于估计梯度并更新上升方向上的政策参数,同时将我们的算法收敛到局部风险敏感的最优政策【17】。

17
何人来此 在职认证  发表于 2022-6-10 13:36:46
受Pattanaik等人的激励,他训练了两个强化学习代理和对抗性游戏,以增强主要玩家的稳健性[20],以及∞控制,我们建议对抗性训练,即在市场价格中加入随机噪音。在我们的实验中,我们在数据中添加了N(0,0.002)噪声。然而,基于条件风险值(CVaR),也可以采用非零期望分布,使代理更加保守。CV aR=1- 沙皇-1xp(x)dx因此,我们在以下实验中给出了修改后的策略梯度:算法3对抗性PG1:随机初始化参与者u(s |θu)2:初始化重播缓冲区R3:对于i=1到M do4:接收初始观察状态s5:向价格数据中添加噪声6:对于t=1到t do7:选择操作ωt=u(st |θu)8:执行操作ω并观察rt,st+1和ωt9:保存R10中的转换(st,ωt,ωt):结束11:通过策略梯度更新参与者策略:θuJ=θuNTXt=1(对数(ωt·yt- umXi=1 |ωi,t- ωi,t-1 |)12:结束。实验a。数据准备我们的实验是在投资、wind的中国股票数据上进行的。从资产池中随机选择固定数量的资产(在我们的实验中为5)。为了确保为学习提供足够的数据,在形成投资组合后,我们检查其可用交易历史的交叉点,只有当它超过我们预设的阈值(1200天)时,我们才能在其上运行代理。为了得到对不同股票具有鲁棒性的总代理,我们对价格数据进行了规范化。具体而言,我们将开盘价、收盘价、高价和低价除以该期间最后一天的收盘价。为了保持时间序列的一致性,我们对周末和节假日期间发生的数据进行整理,将空白价格数据填入前一天的收盘价,并将交易量设为0,表示当天市场已收盘。B

18
何人来此 在职认证  发表于 2022-6-10 13:36:49
网络结构由Jiang等人提出,我们使用了所谓的完全相同的独立评价者(IIE)。IIE表示网络独立于m+1资产运行,而网络参数在这些流之间共享。网络一次评估一只股票,并输出一个定标器来表示其对该资产的投资偏好。然后,m+1定标器被Softmax函数归一化,并压缩为权重向量,作为下一个周期的动作。IIE与集成网络相比具有一些关键优势,包括投资组合规模的可扩展性、数据使用效率和资产收集的可塑性。这个解释可以在【10】中回顾,我们不打算在这里详细阐述。我们发现,在其他关于投资组合管理深度学习的工作中,CNN在大多数情况下都优于RNN和LSTM。然而,与Jiang等人不同的是,我们将神经网络与深度残差网络交替使用。神经网络的深度对其性能起着重要作用。然而,随着网络深度的增加,由于梯度消失和梯度爆炸,传统的CNN网络无法深入。深度剩余网络通过为层添加一个直接跳到更深层的快捷方式来解决这个问题,这可以防止网络随着深度的增加而恶化。深度残差网络在图像识别中取得了显著的性能,为深度学习的发展做出了巨大的贡献。[11] 当谈到我们的PG结构时,我们采用了与蒋相似的设置,我们不会在这里具体说明。https://lpi.invest.com/invest.com&bittrexhttp://www.wind.com.cn/Fig.2、剩余块图。3、我们实验中的DDPG网络结构算法MDDPG PPO演员评论家演员评论家Adam Adam GradientDescent GradientDescentLearning Rate 10-3.-1.-3.-3τ 10-2.-2.-2.-2我们实验中的表I类型参数C。

19
何人来此 在职认证  发表于 2022-6-10 13:36:53
结果1)学习率:学习率在神经网络训练中起着至关重要的作用。然而,这也是非常微妙的。高学习率会使训练损失在开始时迅速减少,但有时会降到局部最小值,甚至会在最优解附近振动,但无法达到最优解。低学习率会使训练损失在经历了大量阶段后也会很小地减少。只有适当的学习率才能帮助网络取得令人满意的结果。因此,我们实现了DDPG,并使用不同的学习率对其进行了测试。结果表明,即使演员的学习率不能直接控制评论家的训练,学习率对评论家的损失也有显著影响。我们发现,当演员学习到新的模式时,评论家的损失会急剧增加。这表明评论家对新的状态没有足够的概括能力。只有当演员变得稳定时,评论家的损失才会减少。2) 风险:由于训练数据的限制,我们的强化学习代理可能会低估风险。4、实验中的PPO网络结构图。5、牛市中不同参与者学习率下的临界损失,这可能会导致其在真实交易环境中的表现出现灾难性的恶化。不同的融资策略可以帮助评估当前的投资组合,以减轻有偏见的培训数据的影响。受Almahdi等人(目标函数是风险调整的)和Jacobsen等人(表明波动率会在一段时间内聚集)的启发,我们将目标函数修改如下:R=TXt=1γt(R(st,at)- βσt),其中σt=LPtt=t-L+1Pm+1i=1(yi,t- yi,t)·wi,tandyi,t=LPtt=t-L+1yi,t测量最后L天资产i收益率的波动性。

20
nandehutu2022 在职认证  发表于 2022-6-10 13:36:56
目标函数是通过降低投资高波动性资产的收益来训练的,这将使我们的投资组合面临不可避免的危险。不幸的是,结果似乎不支持我们的修改。我们还以夏普比率的形式对代理进行目标函数培训,但它也失败了。事实上,奖励工程是设计强化学习算法的核心主题之一。我们的修改似乎使目标函数过于复杂。图6:。不同批评家学习率下的批评家损失。7、不同风险惩罚的投资组合价值比较(β)3)特征组合:据我们所知,很少有工作讨论强化学习中的特征组合。与端到端的游戏或机器人控制不同,输入是像素,在投资组合管理中,可以考虑丰富的功能。共同特征包括收盘价、开盘价、高价、低价和成交量。此外,长期分析的财务指标,如市盈率(PE)、市盈率(PB)也可以提供对市场走势的洞察。然而,添加不相关的特征会增加噪声并恶化训练。其中的权衡是特征选择的主题。因此,我们在不同的特征组合下进行了实验,即1。仅使用closingprices,2。带闭合和高,3。带关闭和打开,4。收盘价低。结果表明,特征组合在训练过程中很重要。选择收盘价和高价可以帮助代理在我们的实验中获得最佳性能。4) 训练和测试:在上述实验之后,我们得到了一组令人满意的超参数和图。8、不同特征组合临界损失比较图。9

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 11:07