|
对于(2.17)中的所有累积奖励函数h(·)、所有脉冲控制成本c(·)和所有终端奖励函数ξ(·),决策者需要监控的“有效统计”保持不变。命题3.2(操作优化的迭代程序)适用于任何可测函数f:Q→ R、 定义映射M by(Mf)(t,y):=supz∈R{f(t,Γ(y,z))+β(t,y,z)},对于所有(t,y)∈ Q.(3.56)对于每k=1,2,··,N,迭代定义F-停止时间τ*k:=infτ*K-1<t≤ T | vN-k+1(t,Y(t))≤ MvN-k(t,Y(t)), (3.57)确信τ*= 0.假设上级∈R{vN-k+1(t,Γ(y,z))+β(t,y,z)}- 越南-k(t,y)(3.58)可通过实数zk(t,y)获得,并定义F(τ*K-)-可测随机变量ζ*k:=zk(τ)*k、 Y(τ)*K-)) , (3.59)对于每k=1,2,··,N,则(2.17)和(3.1)中的上界通过脉冲控制{τ*k、 ζ*k} 此外,最大期望报酬sv=vN(0,Y(0))和V=ξ(x)+vN(0,Y(0))。备注3.1 20世纪70年代,当Bensoussan和Lions最初制定冲动控制问题时,他们的干预次数N=∞. N是有限的还是有限的,没有根本区别,只是系数和容许控制集的技术条件略有不同,才能得出值函数的位置、连续性甚至可微性等性质。Bensoussan和Lions在[6]的定理4中指出,N次干预的值函数与N次干预的值函数共同收敛,如下所示:→ ∞.
|