|
根据公式(4.61)和(4.62),闭环方程允许解Z*(·) ≡ F和Z*(·) ≡ S分别对应于初始值z=F和z=S。推论4.15。映射Pand P的有界性、关系式(4.65)和上述注释意味着,对于任何(t,z)∈ [0,T]×[S,F],以下策略是允许的。此外,通过验证和闭环方程定理得出最优性结论。πs=(P(s,Z*(s;t,z)),s∈ [t,t),0,s=t,(4.66)πs=(P(s,Z*(s;t,z)),s∈ [t,t),0,s=t.(4.67)最优策略的唯一性在下面得到证明。命题4.16。在任意点(t,z)∈ [0,T]×[S,F],上述给定的策略π=(π,π)是唯一的最优策略。证据通过矛盾,让π=(π,π)成为点(t,z)的另一个最优策略。类似于Prop中使用的参数。(4.6),定义X*s: =(Xs+Xs),其中Xs=X(s;t,z,π(·)),π(·)),Xs=X(s;t,z,π(·)),π(·)),和π1,*s: =2倍*s(πsXs+πsXs),π2,*s: =(πs+πs),我们有X*s=X(s;t,z,π1,*(·), π2,*(·)).现在,由于函数x的严格凸性→ (C)- x) 和x→(F)-xaa),得出了以下关于作用泛函的严格不等式,这与策略π和π的最优性相矛盾,[J(t,z;π(·),π(·))+J(t,z;π(·),π(·))]=E[κZTtηs(C- πs)ds+ηT(F)- XTaa)]+E[κZTtηs(C- πs)ds+ηT(F- XTaa)]>E[κZTtηs(C- π2,*s) ds+ηT(F- 十、*Taa)]=J(t,z;π1,*(·), π2,*(·)).根据(4.66)和(4.67),通过将反馈映射应用于闭环方程的解来获得最优策略。因此,最优策略的唯一性决定了闭环方程解的唯一性;有关严格的证明,请参见[9,备注5.4]。5数值算法在第4节中,使用Neumann边界条件(4.13)-(iii)来显示值函数V的规律性。
|