|
等效的分段确定性ProcessEx由ext=eДαt给出-Tn(eXTn),每t∈ [Tn,Tn+1)在时间T之前。对于压力对时间的依赖性,也使用符号eДαT=(T,Дα)。我们定义了函数λαs(ex)=λ(eДαs(ex),αs):=λ((T+s,ναs),αs),(23)λαs(ex)=λα(s;ex):=Zsλu(ex)du。现在我们想介绍马尔可夫决策模型{Ln∈N、 到达间隔时间Tn+1的分布- t给定Ln=(t,x)和hn=α等于λα(ex)e-∧αu(ex)du,其中ex=(t,x)。那么对于任何有界可测函数f:eX∪ {} → R、 MDM的转换内核由QLF给出(t,x),α=ZT公司-tλαu(ex)e-∧αu(ex)QeXf(u+t,Дu(ex),αudu+e-∧ατИ(¢x)f((R)),使用QL{}(, α) = 1.定义单阶段奖励函数r:eX×A→ R≥0,我们首先用wt表示流量的财富成分Дα。那么我们有r(ex,α)=e-∧αT-t(ex)U(重量-t) ,r() = 0、策略{hn}的预期回报n∈由j{hn}给出的Nis∞(ex)=E{hn}ex“∞Xn=0r(Ln,hn(Ln))#,和j∞(ex):=辅助J{hn}∞(ex):{hn}FS- 容许策略. (24)现在,我们需要验证,这种有限阶段马尔可夫决策模型的构造导致了一个与原始PDP控制问题等效的最优控制问题。在下一个引理中,我们展示了对应于MDM的值函数和PDMP的控制问题是一致的。证据见附录A.18 S.ALTAY、K.COLANERI和Z.EKSILemma 4.1。它适用于所有FSS容许策略{hn}n∈n在V{hn}=J{hn}∞因此V=J∞, 也就是说,控制问题(22)和(24)是等效的。定义马尔可夫决策模型asT v(ex)的算子T:=supα∈电子邮箱-∧αT-t(ex)U(重量-t) +ZT-tλαu(ex)e-∧αu(ex)QeXv(t+u,Дu(ex),αu二人组。我们的想法是将值函数描述为运算符的唯一固定点。
|