楼主: 能者818
1466 34

[量化金融] 连续时间均值-方差投资组合选择:一种强化 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-14 13:58:13
相反,RL算法由历史数据驱动,直接输出最优(或接近最优)分配。这是通过与未知投资环境的直接交互,以学习(探索)和优化(利用)的方式实现的。Wang et al.(2019)提出了探索性RL随机控制问题的一般理论框架,并对特殊LQ情况进行了详细研究,尽管是在有限时间h原点的情况下。我们在这里采用相同的框架,注意到LQS结构的固有特征和MV问题的有限时间范围。事实上,尽管探索公式的动机基本相同,但随着从有限时间范围到有限时间范围的转变,出现了有趣的新景象。首先,我们介绍状态动力学的“探索性”版本(2)。它最初是在Wang等人(2019)中提出的,其动机是在RL中进行重复学习。在此公式中,控制(portolio)进程u={ut,0≤ t型≤ T}是随机化的,它代表探索和学习,导致一个测量值或分布控制过程,其中,密度函数由π={πT,0给出≤ t型≤ T}。动力学(2)改变为xπt=~b(πt)dt+~σ(πt)dWt,(5),其中0<t≤ T和Xπ=X,~b(π):=ZRρσuπ(u)du,π∈ P(R),(6)和∧σ(π):=sZRσuπ(u)du,π∈ P(R),(7),其中P(R)是关于勒贝格测度绝对连续的概率测度onR的密度函数集。数学上,(5)与经典控制理论中的放松控制公式相吻合。参见Wang等人。

12
nandehutu2022 在职认证  发表于 2022-6-14 13:58:17
(2019)详细讨论了(5)的动机。分别用utandσt表示,0≤ t型≤ T,与分布控制过程π相关的均值和方差(假设目前存在)过程,即uT:=ZRuπT(u)du和σT:=ZRuπT(u)du- ut.(8)然后,紧接着,勘探动力学(5)变为dxπt=ρσutdt+σqut+σtdWt,(9),其中0<t≤ T和Xπ=X。随机分布控制过程π={πT,0≤ t型≤ T}是对勘探进行建模,其总体水平依次为其累积差异熵(π):=-ZTZRπt(u)lnπt(u)dudt。(10) 此外,引入温度参数(或勘探权重)λ>0,以反映开采和勘探之间的权衡。然后,对于任何固定的∈ R:minπ∈A(x,0)E(XπT- w) +λZTZRπt(u)lnπt(u)dudt- (w)- z) ,(11)式中,A(x,0)是下文精确定义的[0,T]上的容许分布控制集。一旦这个问题用极小值π解决了*= {π*t、 0个≤ t型≤ T},拉格朗日乘子w可由附加约束E[Xπ]确定*T] =z。优化目标(11)明确鼓励探索,而经典问题(4)只涉及开发。我们将用动态规划法求解(11)。为此,我们需要定义函数的价值。对于每个(s,y)∈ [0,T)×R,考虑[s,T]上的状态方程(9),Xπs=y。定义容许控制集A(s,y),如下所示。设B(R)是R上的Borel代数。

13
何人来此 在职认证  发表于 2022-6-14 13:58:20
(分布)控制(或组合/策略)过程π={πt,s≤ t型≤ T}属于A(s,y),if(i)对于每个s≤ t型≤ T,πT∈ P(U)a.s。;(ii)对于每个A∈ B(R),{RAπt(u)du,s≤ t型≤ T}是Ft-progressivelymeasurable;(iii)EHRTut+σtdti<∞;(四)Eh(XπT- w) +λRTsRRπt(u)lnπt(u)dudtXπs=yi<∞.显然,从条件(iii)可以看出,随机微分方程(SDE)(9)对于s具有唯一的强解≤ t型≤ A(s,y)中的控制是度量值(或精确地说是密度函数值)随机过程,在控制术语中也称为开环控制。与经典控制理论一样,区分开环控制和反馈(或闭环)控制(或RL文献中的策略,或控制文献中的定律)很重要。具体而言,如果i)π(·;t,x)是每个(t,x)的密度函数,则确定性映射π(·;·,·,·)称为(容许的)反馈控制∈ [0,T]×R;ii)对于每个(s,y)∈ [0,T)×R,以下SDE(即应用反馈策略π(·;·,·)后的系统动力学)dXπT=~b(π(·;T,XπT))dt+~σ(π(·;T,XπT))dWt,T∈ [s,T];Xπs=y(12)有唯一的强解{Xπt,t∈ [s,T]},开环控制π={πT,T∈ [s,T]}∈ A(s,y),其中πt:=π(·;t,Xπt)。在这种情况下,可以说开环控制π是根据反馈ack策略π(·;·,·)相对于初始时间和状态(s,y)生成的。

14
mingdashike22 在职认证  发表于 2022-6-14 13:58:23
需要注意的是,开环控制及其可容许性取决于初始值(s,y),其中反馈策略可以为任何(s,y)生成开环控制∈ [0,T)×R,因此其本身独立于(s,y)。在本文中,我们使用黑体字π表示反馈控制,使用标准样式π表示开环控制。现在,对于固定的∈ R、 定义(s,y;w):=infπ∈A(s,y)E(XπT- w) +λZTZRπt(u)lnπt(u)dudtXπs=y-(w)-z) ,(13)(s,y)∈ [0,T)×R。函数V(·,·;w)被称为问题的最优值函数。此外,我们定义了任何给定反馈控制下的值函数π:Vπ(s,y;w)=E(XπT- w) +λZTsZRπt(u)lnπt(u)dudtXπs=y-(w)-z) ,(14)用于(s,y)∈ [0,T)×R,wher eπ={πT,T∈ [s,T]}是由π相对于(s,y)和{XπT,T生成的开环控制∈ [s,T]}是相应的财富过程。3解决探索性MV问题在本节中,我们首先解决探索性MV问题,然后在经典问题和探索性问题之间建立可解性等价关系。后者对于理解勘探成本和设计RL算法非常重要。3.1高斯探索的最优性为了解决探索性MV问题(11),我们采用了经典的Bellman最优性原则:V(t,x;w)=infπ∈A(t,x)EV(s,Xπs;w)+λZstZRπV(u)lnπV(u)dudvXπt=X,对于x∈ R和0≤ t<s≤ T根据标准参数,我们推断V满足Hamilton-Jacobi-Bellman(HJB)方程VT(t,x;w)+minπ∈P(R)σ(π)vxx(t,x;w)+λb(π)vx(t,x;w)+λZRπ(u)lnπ(u)du= 0,(15)在对照文献中,V称为值函数。

15
大多数88 在职认证  发表于 2022-6-14 13:58:26
然而,在RL文献中,术语“值函数”也用于特定控制下的目标值。因此,为了避免歧义,我们称V为最优值函数。或者,等效地,vt(t,x;w)+minπ∈P(R)ZRσuvxx(t,x;w)+ρσuvx(t,x;w)+λlnπ(u)π(u)du=0,(16),终端条件v(T,x;w)=(x-w)-(w)-z) 。这里v表示HJB方程的一般未知解。应用通常的验证技术,并使用π∈P(R)当且仅当ifZRπ(u)du=1和π(u)≥ 我们可以解决HJB方程(16)中的(约束)优化问题,以获得一个反馈(分布)控制,其密度函数由π给出*(u;t,x,w)=exp-λσuvxx(t,x;w)+ρσvx(t,x;w)RRexp-λσuvxx(t,x;w)+ρσvx(t,x;w)du=Nu-ρσvx(t,x)vxx(t,x;w),λσvxx(t,x;w), (18) 其中,我们用N(u |α,β)表示平均α的高斯密度函数∈ R和方差β>0。在上述表述中,我们假设vxx(t,x;w)>0,这将在以下内容中验证。将候选最优高斯反馈控制策略(18)替换回HJB方程(16),后者被转换为VT(t,x;w)-ρvx(t,x;w)vxx(t,x,w)+λ1.- ln2πeλσvxx(t,x;w)= 0,(19),v(T,x;w)=(x-w)-(w)-z) 。直接计算得出该方程h为经典解V(t,x;w)=(x-w) e类-ρ(T-t) +λρT-t型-λρT-lnσπλ(T-t)-(w)-z) ,(20)对于任何(t,x),明显满足vxx(t,x;w)>0∈ [0,T]×R。因此,候选最优反馈高斯控制(18)将减少到π*(u;t,x,w)=Nu-ρσ(x- w) ,λ2σeρ(T-t), (t,x)∈ [0,T]×R.(21)最后,π下的最优财富过程(9)*becomesdX公司*t=-ρ(X*t型- w) dt+rρ(X*t型- w) +λeρ(T)-t) dWt,X*= x。

16
能者818 在职认证  发表于 2022-6-14 13:58:29
(22)它为0提供了唯一的强大解决方案≤ t型≤ 可以很容易地验证。我们现在将上述结果求和到以下定理中。定理1熵正则化探索者MV问题(11)的最优值为giv en b yV(t,x;w)=(x-w) e类-ρ(T-t) +λρT- t型-λρT- lnσπλ(T-t)-(w)-z) ,(23)对于(t,x)∈ [0,T]×R。此外,最优反馈控制是高斯的,其密度函数由π给出*(u;t,x,w)=Nu-ρσ(x- w) ,λ2σeρ(T-t). (24)π下的关联最优财富过程*是DEDX的唯一解决方案*t=-ρ(X*t型- w) dt+rρ(X*t型- w) +λeρ(T)-t) dWt,X*= x、 (25)最后,拉格朗日乘数w由w=zeρT给出-xeρT-1.证明。对于每个固定w∈ R、 验证参数旨在表明问题(11)的最优值函数由(23)给出,且最终最优策略(24)确实是可容许的。详细的证明遵循Wang et al.(2019)中定理4的相同行,留给感兴趣的读者。现在我们通过约束[X]确定拉格朗日乘数w*T] =z。根据(25),以及标准估计值E马克斯特∈[0,T](X*t)< ∞ Fubini定理,即*t] =x+EZt公司-ρ(X*s- w) ds公司= x+Zt-ρ(E[X*s]- w) ds。因此,E[X*t] =(x-w) e类-ρt+w.约束E[X*T] =z现在变为(x- w) e类-ρT+w=z,即w=zeρT-xeρT-1、这个结果中有几个有趣的地方值得注意。

17
何人来此 在职认证  发表于 2022-6-14 13:58:37
首先,从下一节的定理2可以看出,由于两个问题各自的最优反馈控制下的最优项最终财富具有相同的平均值,因此经典和实验MV问题具有相同的拉格朗日乘数值。后一个结果乍一看相当令人惊讶,因为探索极大地改变了隐藏的系统动力学(将动力学(2)与(9)进行比较)。其次,衡量勘探水平的最优高斯策略的方差为λ2σeρ(T-t) 在时间t,勘探在时间内衰减:代理最初以最大水平进行勘探,并随着时间的推移和接近投资期限的结束而逐渐减少(尽管永远不会为零)。因此,与Wang等人(2019)研究的有限层位不同,勘探程度不再是恒定的,而是退火。这是很直观的,因为随着时间的推移,随着代理对随机环境的了解越来越多,开发变得越来越重要,因为有一个评估活动的截止日期T。自然,开发主导着勘探,直到成熟。eorem 1内生性地提出了这样一个衰退的探索方案,据我们所知,这在RL文献中还没有推导出来。第三,如Wang等人(2019)所述,在任何给定的t∈ [0,T],探索性高斯分布的方差随着风险资产的波动性增加而减小,其他参数固定。

18
mingdashike22 在职认证  发表于 2022-6-14 13:58:40
风险资产的波动性反映了投资的随机性水平。这意味着一个更随机的环境包含更多的学习机会,RL代理可以利用这些机会来减少自己的exploratoryendeavor,因为毕竟,探索是昂贵的。最后,高斯分布(24)的平均值与勘探权重λ无关,而其方差与状态x无关。这突出了开采和勘探之间的完美分离,因为前者由平均值捕获,后者由最优高斯勘探的方差捕获。这一性质也与Wang et al.(2019年)死于霍利森·斯图(Infine h orizon stu)的LQ案例一致。定理2再现了Zhou和Li(2000)获得的经典MV问题的结果。3.2经典和探索性MV问题之间的可解性等价在本节中,我们建立了经典和探索性、熵正则化MV问题之间的可解性等价。请注意,这两个问题都可以并且确实已经分别独立地解决了。这里所说的“可解性等价”是指一个问题的解决将直接导致另一个问题的解决,而无需单独解决。Wang等人(2019年)首次发现了这种等效性,该等效性适用于Infinethorizon LQ情况,并被证明在推导收敛结果(当勘探权重λ衰减为0时)以及分析其中的勘探成本时具有重要意义。在这里,讨论大多是平行的;所以他们会很简短。回想一下经典的MV问题(4)。

19
大多数88 在职认证  发表于 2022-6-14 13:58:43
为了应用动态规划,我们再次考虑(s,y)的容许控制集Acl(s,y)∈ [0,T)×R,Acl(s,y):=nu={ut,T∈ 【s,T】}:u是Ft逐步可测量的,并且【RTs(us)ds】<∞o、 (最佳)价值函数由VCL(s,y;w)定义:=infu∈Acl(s,y)E(xuT)- w)xus=y- (w)- z) ,(26)用于(s,y)∈ [0,T)×R,wher e w∈ R是固定的。一旦这个问题得到解决,就可以通过约束E[x]来确定wc*T] =z,带{x*t、 t型∈ [0,T]}最优投资组合u下的最优财富过程*.HJB方程为ωt(t,x;w)+min∈Rσuωxx(t,x;w)+ρσuωx(t,x;w)= 0,(t,x)∈ [0,T)×R,(27),终端条件ω(T,x;w)=(x- w)-(w)- z) 。标准验证参数将最优值函数推导出为beVcl(t,x;w)=(x- w)e-ρ(T-t)- (w)- z) ,最优反馈控制策略*(u;t,x,w)=-ρσ(x- w) ,(28)和相应的最优财富过程是SDEdx的唯一强解*t=-ρ(x*t型- w) dt公司- ρ(x*t型- w) dWt,x*= x、 (29)比较探索和经典问题的最优财富动态,(25)和(29),我们注意到它们具有相同的漂移系数(但不同的差异系数)。因此,这两个问题具有最优终端财富的同素,并且拉格朗日乘数w=zeρT的值相同-xeρT-1由约束E[x]确定*T] =z。我们现在提供两个p问题之间的可解性等价。该证明与Wang等人的定理7非常相似。

20
能者818 在职认证  发表于 2022-6-14 13:58:46
(2019),省略了isthus。定理2下列两个陈述(a)和(b)是等价的。(a) 函数v(t,x;w)=(x-w) e类-ρ(T-t) +λρT- t型-λρT- lnσπλ(T-t)- (w)- z) ,(t,x)∈ [0,T]×R是探索性MV问题(11)的最优值函数,相应的最优反馈控制为π*(u;t,x,w)=Nu-ρσ(x- w) ,λ2σeρ(T-t).(b) 函数ω(t,x;w)=(x-w) e类-ρ(T-t)-(w)-z) ,(t,x)∈ [0,T]×R是经典MV问题(26)的最优值函数,相应的最优反馈控制为*(t,x;w)=-ρσ(x- w) 。此外,这两个问题具有相同的拉格朗日乘子w=zeρT-xeρT-1、当探索权重λ减小到0时,可以合理预期探索问题收敛到其经典对应问题。下面的结果使这一点更加精确。定理3假设定理2的陈述(a)(或等价地,(b))成立。然后,对于每个(t,x,w)∈ [0,T]×R×R,limλ→0π*(·;t,x;w)=δu*(t,x;w)(·)弱。此外,limλ→0 | V(t,x;w)- Vcl(t,x;w)|=0。证据反馈控制的弱收敛性来自π的显式形式*和u*在声明(a)和(b)中。值函数的逐点收敛很容易遵循V(·)和VCL(·)的形式s,以及Limλ→0λlnσπλ=0。最后,我们通过检查勘探成本得出结论。这一点最初在Wang等人(2019年)中定义并推导出,适用于单位HORIZON环境。此处,由于目标(11)中明确包含勘探,与MV问题相关的成本由CU确定*,π*(0,x;w):=V(0,x;w)-λEZTZRπ*t(u)lnπ*t(u)du dtXπ*= x个- Vcl(0,x;w),(30)表示x∈ R、 其中π*= {π*t、 t型∈ [0,T]}是由最优反馈律π生成的(开环)最优策略*关于初始条件Xπ*= x。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 06:19