|
由于V满足方程(6),我们有e[g(UuTuExec)-cqaTuExec]=E[V(TuExec,UuTuExec)]=V(0,U)+Xi≥0EZτTi+1τTi[AV(s,Uus)-cqa]ds+hV(τi,(Uuτi-)βi)-V(τi,Uuτi-)我= V(0,U)。自,按结构,EV(τi,(Uuτi-)βi)- V(τi,Uuτi-)= 0和AV(,U)- cqa=0,这表明该策略满足例如(UuTuExec)-cqaTuExec]=V(0,U),因此,通过定义V(0,U)是最佳的。定理4G的证明。1不等式证明(9)让我们 并通过每T在n上的递归显示结果∈ [0,n].初始化:在这种情况下,我们有V=V=g。迭代:让我们假设n的结果为真。让T∈ [0,(n+1)).o 当T∈ [0,n]: 使用重复性假设,结果是正确的当T∈ (n), (n+1)]: 让t∈ [0,T]。当t∈ (, T],通过使用v(T,U)=VT,结果为真-t(0,U),~V(t,U)=VT-t(0,U)和复发假说。让我们开始吧∈ [0, , T)。利用动态规划原理,我们得到(t,u)- V(t,u)|≤supuEhcqa([Tt,uExec- t] 1?Tt,uExec≤t型+- [Tt,uExec- t] 1Tt,uExec≤t型+)+ cqa(1?Tt,uExec>t+- 1Tt,uExec>t+) +VT-t型(,Uu,) - 及物动词-t型(, Uu)我.– 首先我们有|(▄Tt,uExec-t) 1?Tt,uExec≤t型+-(Tt,uExec-t) 1Tt,uExec≤t型+|≤ ETt,uExec≤t型++1Tt,uExec≤t型+≤ 2小时–其次,使用(4.4.3),我们有EVT-t型(,Uu,) - 及物动词-t型(, Uu)=徐Pu,uVT-t型(, u)- PU= u | u=u及物动词-t型(, u)≤徐Pu,u(¢V)T-t型(, u)- 及物动词-t型(, u)≤ R(T- t型- ).– 最后,我们有CQAE|1?Tt,uExec>t+- 1Tt,uExec>t+|≤ cqaE|1Tt,uExec≤t型++ 1?Tt,uExec≤t型+|≤ cqa2小时。通过组合上述不等式,我们得出T-t(t,u)- 及物动词-t(t,u)|≤ R(T- t型- ) + R≤ R(T- t).备注5。我们可以证明有限差分格式的不等式(9)(即P=i+Q) 通过添加错误项C自e起Q- (一+Q)=Q+o().G、 2方程式(10)的证明,让uOpti,是与过程相关的分段常数最优控制Uu,t。
|