|
(4.10)例如,如果我们恰好处于马氏情形,其中VA,v,at=f(t,Bobs,v,at,Bobs)--,v、 at)对于一些光滑函数f(t,x,y),那么,根据它的^o法则,过程Zobs,v,a,~Zobs--,v、 a和Γobs,v,a,Γobs--,v、 a由Zobs,v,at=xf(t、防喷器、v、at、防喷器--,v、 在……佐布斯--,v、 at=yf(t,Bobs,v,at,Bobs--,ut),Γobs,v,at=xxf(t,防喷器,v,at,防喷器--,v、 在--,v、 at=yyf(t,Bobs,v,at,Bobs--,v、 在),与十、xx,Yyy表示对相应变量的偏导数。接下来,根据经典随机控制理论的鞅最优性原理,动态规划原理建议过程VA,v,ateRAKv,a0,t对于所有容许控制(v,a)都应该是一个上鞅,对于任何最优控制(v*,A.*), 只要存在这种情况。通过正式证明超鞅的漂移系数为非正,鞅的漂移系数必须为零,我们得到了以下路径相关的HJB(Hamilton-Jacobi-Bellman)方程:- tVA,v,at+RAVA,v,atG(t,Zv,at,Γv,at)=0,其中(Zv,at,Γv,at):=-拉瓦,v,在~Zv,at,~Γv,at, 其中g(t,z,γ):=sup(v,a)∈V×Ag(t,z,γ,V,a),(4.12)和g(t,z,γ,V,a):=-k(v,a)+zobs·ut(v,a)+Trγobs∑t(v)∑Tt(v)+Trγobs--.将上述内容代入(4.10),其结果如下:- a、 s,d(VA,v,ateRAKv,a0,t)=- RAVA,v,ateRAKv,a0,tg(t,Zv,at,Γv,at,vt,at)- G(t,Zv,at,Γv,at)dt- 拉瓦特拉科夫,a0,t∑t(vt)TZobs,v,at+Σ⊥T佐布斯--,v、 在· dBt。
|