楼主: 能者818
696 26

[量化金融] 大规模连续时间均值-方差投资组合分配 [推广有奖]

21
大多数88 在职认证  发表于 2022-6-24 12:01:08
值得注意的是,上述假设只是为了便于推导本文的理论结果;在实践中,所有模型参数都是未知的和时变的,RL算法的目标是直接输出交易策略,而不依赖于任何模糊参数的估计。用utand ut=(ut,…,udt)表示在时间t分别存入储蓄账户和d风险资产的贴现美元价值。然后得出贴现财富过程为xut=Pdi=0uit,0≤ t型≤ T自我融资条件进一步表明,使用(22),我们有dxut=rutdt+dXi=1uittsitdsit- rxutdt=-r(xut- ut)dt+dXi=1uituidt+σi·dWt=dXi=1uit(ui- r) dt+σi·dWt= σut·(ρdt+dWt)。B值函数和容许控制分布为了通过动态规划更好地求解(6),我们需要定义值函数。Foreach(s,y)∈ [0,T)×R,考虑[s,T]上的状态方程(4),Xπs=y。定义一组容许控制,A(s,y),如下所示。设B(Rd)是Rd上的Borel代数。A(分布)控制(或策略)过程π={πt,s≤ t型≤ T}属于A(s,y),if(i)对于每个s≤ t型≤ T,πT∈ P(Rd)a.s。;(ii)对于每个A∈ B(Rd),{RAπt(u)du,s≤ t型≤ T}是Ft逐步可测量的;(三)EhRTsRRdσuπt(u)dudti<∞;(四)Eh(XπT- w) +λRTsRRdπt(u)lnπt(u)dudtXπs=yi<∞.显然,从条件(iii)可以看出,随机微分方程(SDE)(4)对于s有唯一的强解≤ t型≤ 满足Xπs=y的T。A(s,y)中的控制是度量值(或精确地说是密度函数值)随机过程,在控制术语中也称为开环控制。

22
mingdashike22 在职认证  发表于 2022-6-24 12:01:11
与经典控制理论一样,区分开环控制和反馈(或闭环)控制很重要(或RL文献中的政策,或控制文献中的法律)。具体而言,如果i)π(·;t,x)是每个(t,x)的密度函数,则确定性映射π(·;·,·,·)称为(容许的)反馈控制∈ [0,T]×R;ii)对于每个(s,y)∈ [0,T)×R,以下SDE(即应用反馈策略π(·;·,·)后的系统动力学)dXπT=ZRdρ′σuπ(u;t,Xπt))dudt公司+ZRdu′σ′σuπ(u;t,Xπt))dudBt,Xπs=y,(2 3)有唯一的强解{Xπt,t∈ [s,T]},开环控制π={πT,T∈ [s,T]}∈A(s,y),其中πt:=π(·;t,Xπt)。在这种情况下,可以说op-e n-loop控制π是由反馈策略π(·;·,·)相对于初始时间和状态(s,y)生成的。值得注意的是,开放lo-op控制及其可容许性取决于初始值(s,y),而反馈策略可以对任何(s,y)的开放循环控制进行基因评级∈ [0,T)×R,因此其本身独立于(s,y)。请注意,在本文中,我们使用黑体字π表示反馈控制,而标准样式π表示开环控制。现在,对于固定的∈ R、 定义(s,y;w):=infπ∈A(s,y)E“(XπT- w) +λZTZRdπt(u)lnπt(u)dudtXπs=y#- (w)- z) ,(24)(s,y)∈ [0,T)×R。函数V(·,·;w)被称为问题的最优值函数。此外,我们定义了任何给定反馈控制下的值函数π:Vπ(s,y;w)=E“(XπT- w) +λZTsZRdπt(u)lnπt(u)dudtXπs=y#- (w)- z) ,(25)表示(s,y)∈ [0,T)×R,其中π={πT,T∈ [s,T]}是由π相对于(s,y)和{XπT,T生成的开环控制∈ 是相应的财富过程。注意,在对照文献中,(24)给出的V称为值函数。

23
大多数88 在职认证  发表于 2022-6-24 12:01:14
然而在r文献中,“值函数”一词也用于特定控制下的目标值(即(25)中的Vπ)。因此,为了避免歧义,我们在本文中称V为最优值函数。C证明C.1定理1的证明1的主要优点是验证参数,旨在显示问题(6)的最优值函数,由(13)给出根据附录B中的定义,可以确定最优策略(14)是不允许的。由于当前的探索性MV问题是[32]中广泛研究的探索性线性二次问题的特殊情况,详细证明将遵循其中定理4的相同路线,留给感兴趣的读者。证据现在我们通过约束e[X]确定大范围乘数w*T] =z。根据(15),以及标准估计值E最大值∈[0,T](X*t)< ∞ Fubini定理,即*t] =x+EZt公司-ρ′ρ(X*s- w) ds公司= x+Zt-ρ′ρ(E[X*s]- w) ds。因此,E[X*t] =(x-w)e-ρ′ρt+w。约束E[X*T] =z现在变为(x-w)e-ρ′ρT+w=z,从而得到w=zeρ′ρT-xeρ′ρT-C.2定理2的证明证明探索性MV问题的解收敛于经典MV问题的解,如λ→ 0,我们首先回顾经典MV问题的解决方案。为了对(3)应用动态编程,我们再次考虑容许控制集Acl(s,y),for(s,y)∈ [0,T)×R,Acl(s,y):=nu={ut,T∈ 【s,T】}:u是Ft可逐步测量和hrtsσutdti<∞o、 (最佳)值函数由vcl(s,y;w)定义:=infu∈Acl(s,y)E(xuT)- w)xus=y- (w)- z) ,(26)用于(s,y)∈ [0,T)×R,其中w∈ R是固定的。

24
可人4 在职认证  发表于 2022-6-24 12:01:18
一旦这个问题得到解决,w可以由约束E[x]确定*T] =z,带{x*t、 t型∈ [0,T]}是最优投资组合下的最优财富过程*.HJB方程为ωt(t,x;w)+min∈研发部u′σ′σuωxx(t,x;w)+ρ′σuωx(t,x;w)= 0,(t,x)∈ [0,T)×R,(27),终端条件ω(T,x;w)=(x- w)- (w)- z) 。标准验证参数将最优值函数推导出为beVcl(t,x;w)=(x- w) e类-ρ′ρ(T-t)- (w)- z) ,(28)对beu的最优反馈控制策略*(t,x;w)=-σ-1ρ(x- w) ,以及相应的优化财富过程,从而成为SDEdx的唯一强解*t=-ρ′ρ(x*t型- w) dt公司- ρ(x*t型- w) ·载重吨,x*= x、 (30)比较探索性问题和经典问题的最佳健康动力学(15)和(30),我们注意到它们具有相同的漂移系数(但扩散系数不同)。因此,这两个问题具有相同的最优终端财富平均值,因此具有相同的土地乘数w=zeρ′ρT值-xeρ′ρT-1由约束E[x]确定*T] =z.证明。反馈控制的弱收敛性来自π的显式形式s*in(14)和u*在第29页。值函数的逐点收敛很容易从v in(13)和Vclin(28)的形式以及limλ→0λln |σ′σ|πλ=0。C、 3定理3的证明。固定(t,x)∈ [0,T]×R。由于根据假设,反馈策略|π是可接受的,因此开环控制策略|π={|πv,v∈ [t,t]},由▄π相对于初始条件x▄πt=x生成,是允许的。设{X▄πs,s∈ [t,t]}是∧π下对应的财富过程。应用It^o的公式,我们得到了Vπ(s,~Xs)=Vπ(t,x)+ZstVπt(V,xπV)dv+ZstZRdu′σ′σuVπxx(v,X|πv)+ρ′σuVπX(v,X|πv)πv(u)dudv+ZstZRdu′σ′σuπv(u)duVπ(V,X∏V)dBv,s∈ [t,t]。

25
可人4 在职认证  发表于 2022-6-24 12:01:22
(31)确定停止时间τn:=inf{s≥ t:RstRRdu′σ′σuπv(u)duVπ(V,X∧πV)dv≥ n} ,forn≥ 从(31)中,我们得到了Vπ(t,x)=EhVπ(s∧ τn,X¢πs∧τn)-Zs公司∧τntVπt(v,X∧πv)dv-Zs公司∧τntZRdu′σ′σu Vπxx(V,X|πV)+ρ′σuVπX(V,X|πV)~πv(u)dudvX∏t=xi。(32)另一方面,通过标准参数和Vπ光滑的假设,我们得到了Vπt(t,x)+ZRdu′σ′σu Vπxx(t,x)+ρ′σuVπx(t,x)+λlnπ(u;t,x)π(u;t,x)du=0,对于任何(t,x)∈ [0,T)×R。它遵循vπT(T,x)+min^π∈P(Rd)ZRdu′σ′σu Vπxx(t,x)+ρ′σuVπx(t,x)+λln^π(u)^π(u)du≤ 0。(33)注意,(33)中的哈密顿量的极小值由(16)中的反馈策略∧π给出。然后,方程式(32)表示vπ(t,x)≥ 超高压π(s∧ τn,X¢πs∧τn)+λZs∧τntZRd▄πv(u)ln▄πv(u)dudvX∏t=xi,对于(t,X)∈ [0,T]×R和s∈ [t,t]。现在取g s=T,并使用Vπ(T,x)=V|π(T,x)=(x-w)-(w)-z) 通过发送n,结合∧π可容许的假设,我们得到→ ∞应用支配收敛定理,thatVπ(t,x)≥ 超高压▄π(T,X▄πT)+λZTtZRd▄πv(u)ln▄πv(u)dudvX▄πt=xi=V▄π(t,X),对于任何(t,X)∈ [0,T]×R.C.4定理4Proof的证明。可以很容易地验证收费政策π(u;t,x,w)=N(u |α(x- w) ,σeβ(T-t) )生成一个关于初始值(t,x)可接受的开环策略π。此外,根据Feynman-Kac公式,相应的价值函数Vπ满足PDEVπt(t,x;w)+ZRdu′σ′σu Vπxx(t,x;w)+ρ′σuVπx(t,x;w)+λlnπ(u;t,x,w)π(u;t,x,w)du=0,(34)终端条件Vπ(t,x;w)=(x)- w)- (w)- z) 。简化这个方程,我们得到Vπt(t,x;w)+Vπxx(t,x;w)Trσα′σ(x- w) +σ∑∑′eβ(T-t)+Vπx(t,x;w)ρ′σα(x- w)-λd ln(2πe)+ln∑dβ(T- t)= 0,(35),其中Tr(·)表示方阵的轨迹。

26
大多数88 在职认证  发表于 2022-6-24 12:01:26
方程(35)的经典解由vπ=(x)给出- w) e(2ρ′σα+Tr(σαα′σ′)(T-t) +Tr(σ∑∑′)e(β+2ρ′σα+Tr(σα′σ′))(t-t) β+2ρ′σα+Tr(σαα′σ′)-λdβt+λd自然对数2πe∑d+ βTt型- (w)- z)-Tr(σ∑∑′)β+2ρ′σα+Tr(σα′),如果β+2ρ′σα+Tr(σα′σ′)6=0,则byVπ=(x- w)e(2ρ′σα+Tr(σαα′σ′)(T-t)-λdβt+λd自然对数2πe∑d+ βT- Tr(σ∑∑′)t型-(w)- z) ,如果β+2ρ′σα+Tr(σαα′σ′)=0。在这两种情况下,很容易检查Vπ是否满足定理3中的条件,如果满足,则该定理适用。改进的策略由(16)给出,在当前情况下,它变为π(u;t,x,w)=Nu- σ-1ρ(x- w) ,λ(σ′σ)-12e(2ρ′σα+Tr(σαα′σ′)(T-t).同样,我们可以计算相应的值函数为Vπ(t,x;w)=(x- w) e类-ρ′ρ(T-t) +F(t),其中Fis仅为t的函数。定理3再次适用,它产生的改进策略π与最优高斯策略π完全相同*(14)中给出,以及(13)中的最优值函数V。因此,对于n,期望的收敛如下≥ 2、在政策改进方案下,政策和价值函数将不再严格改进(16)。(a) 批量方法(b)批量和通用方法图2:(a)批量RL培训和测试以及(b)ba tc HM方法和通用方法(d=20)的投资绩效比较。D实证结果:批量方法在第5.2节中,我们提供了在通用培训和测试下每月交易的实验结果。另一种训练和测试EMV和DDPG alg算法的方法是基于批量(离线)RL,如正文所述。批处理法适用于同一组/种子的训练和测试数据,每个实验的d=20只股票,图2a中报告了EMValgorithm在100只种子上的投资表现。

27
mingdashike22 在职认证  发表于 2022-6-24 12:01:29
由于训练时间较长(见表1a),我们仅对8个种子采用分批法训练和测试DD-PG。与计量经济学方法和deep RL方法相比,批量方法表现出与通用培训和测试方法(见图1a)在性质上相似的行为。两种方法之间更详细的比较如图2b所示。注意到这一点很有趣,而这两种方法在2000年以上的大多数测试期间都表现得一样好-2010年,通用方法受2008年金融危机的影响较小,波动性较小,回报较高。批处理法在培训和测试期间不考虑每个投资组合/种子的其他股票数据,更容易受到股市暴跌的影响。尽管如此,这两种方法都是数据有效的,尤其是考虑到,例如,批量方法的训练集包含与测试集决策点相同的数据点(120×20)。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-28 13:37