|
然而,在RL文献中,术语“值函数”也用于特定控制下的目标值。因此,为了避免歧义,我们称V为最优值函数。或者,等效地,vt(t,x;w)+minπ∈P(R)ZRσuvxx(t,x;w)+ρσuvx(t,x;w)+λlnπ(u)π(u)du=0,(16),终端条件v(T,x;w)=(x-w)-(w)-z) 。这里v表示HJB方程的一般未知解。应用通常的验证技术,并使用π∈P(R)当且仅当ifZRπ(u)du=1和π(u)≥ 我们可以解决HJB方程(16)中的(约束)优化问题,以获得一个反馈(分布)控制,其密度函数由π给出*(u;t,x,w)=exp-λσuvxx(t,x;w)+ρσvx(t,x;w)RRexp-λσuvxx(t,x;w)+ρσvx(t,x;w)du=Nu-ρσvx(t,x)vxx(t,x;w),λσvxx(t,x;w), (18) 其中,我们用N(u |α,β)表示平均α的高斯密度函数∈ R和方差β>0。在上述表述中,我们假设vxx(t,x;w)>0,这将在以下内容中验证。将候选最优高斯反馈控制策略(18)替换回HJB方程(16),后者被转换为VT(t,x;w)-ρvx(t,x;w)vxx(t,x,w)+λ1.- ln2πeλσvxx(t,x;w)= 0,(19),v(T,x;w)=(x-w)-(w)-z) 。直接计算得出该方程h为经典解V(t,x;w)=(x-w) e类-ρ(T-t) +λρT-t型-λρT-lnσπλ(T-t)-(w)-z) ,(20)对于任何(t,x),明显满足vxx(t,x;w)>0∈ [0,T]×R。因此,候选最优反馈高斯控制(18)将减少到π*(u;t,x,w)=Nu-ρσ(x- w) ,λ2σeρ(T-t), (t,x)∈ [0,T]×R.(21)最后,π下的最优财富过程(9)*becomesdX公司*t=-ρ(X*t型- w) dt+rρ(X*t型- w) +λeρ(T)-t) dWt,X*= x。
|