|
(13) 从本质上讲,XRis本身就是一个马尔可夫链,因此,它是后继中定义的辅助随机控制模型的唯一状态过程。让ARB确定辅助状态过程的所有容许动作集,定义为:AR:=a={at}t∈Tatis英尺- 可测量,在∈ 在XRt公司, 对于t∈ T.相对于原始随机最优控制问题(2),我们考虑以下辅助问题:~V(X)=supa∈是“T”-1Xt=0хtftXRt,at+ ^1TfTXRT公司#, (15) 其中XR=XRt公司t型∈对于任何给定的动作a,由公式(13)递归定义。因为状态过程XRF一旦到达边界集就会冻结XR,式(15)中的值函数由▄Vt(x)=T给出-1Xn=tДn-tfn公司x;一*n(x)+ ^1T-tfT(x),用于x∈ XR,t∈ T,(16)带a*n(x)∈ arg最大值∈An(x)fn(x;a)。在截断域的内部,可以用与V(·)类似的向后递归方法来求解上述值函数V(·),即,VT(x)=英尺(x),~VT(x)=supa∈在(x)hft(x,a)+ИCt时K(x,a)i、 对于x∈XR,t=0,1,T-1,(17)式中,根据式(6)定义▄Ct(·),H(·,·)替换为▄H(·,·)。值得注意的是,在评估Ct时K(x,a), 关于▄Vt+1(·)的知识超过XRRight可能需要,在这种情况下,将调用公式(16)。我们对方程(17)和与主要随机控制模型相关的Bellman方程(8)进行了一些比较。首先,在这两个方程中,(·)处的状态约束、行动前后的传递方程K(·,·)和奖励函数完全相同。
|