|
值得注意的是,上述假设只是为了便于推导本文的理论结果;在实践中,所有模型参数都是未知的和时变的,RL算法的目标是直接输出交易策略,而不依赖于任何模糊参数的估计。用utand ut=(ut,…,udt)表示在时间t分别存入储蓄账户和d风险资产的贴现美元价值。然后得出贴现财富过程为xut=Pdi=0uit,0≤ t型≤ T自我融资条件进一步表明,使用(22),我们有dxut=rutdt+dXi=1uittsitdsit- rxutdt=-r(xut- ut)dt+dXi=1uituidt+σi·dWt=dXi=1uit(ui- r) dt+σi·dWt= σut·(ρdt+dWt)。B值函数和容许控制分布为了通过动态规划更好地求解(6),我们需要定义值函数。Foreach(s,y)∈ [0,T)×R,考虑[s,T]上的状态方程(4),Xπs=y。定义一组容许控制,A(s,y),如下所示。设B(Rd)是Rd上的Borel代数。A(分布)控制(或策略)过程π={πt,s≤ t型≤ T}属于A(s,y),if(i)对于每个s≤ t型≤ T,πT∈ P(Rd)a.s。;(ii)对于每个A∈ B(Rd),{RAπt(u)du,s≤ t型≤ T}是Ft逐步可测量的;(三)EhRTsRRdσuπt(u)dudti<∞;(四)Eh(XπT- w) +λRTsRRdπt(u)lnπt(u)dudtXπs=yi<∞.显然,从条件(iii)可以看出,随机微分方程(SDE)(4)对于s有唯一的强解≤ t型≤ 满足Xπs=y的T。A(s,y)中的控制是度量值(或精确地说是密度函数值)随机过程,在控制术语中也称为开环控制。
|