|
(PC)3.1随机目标问题的简化在本节中,我们将正式介绍与等式(8)中定义的控制问题相关的Hamilton–Jacobi–Bellman(HJB)方程,受等式(9)给出的约束,从而将相关的最优控制问题简化为随机目标问题。我们强调,在下面的内容中,由于最优控制问题的结构,我们将重点关注单代理i。特别是,为了避免重标记,如果没有另外说明,我们将表示为shortX:=Xi。利用等式(11)给出的值函数形式,并将等式(PC)中的终端概率重写为期望值,即PX(T)≥ v英尺= E[X(T)≥五]英尺,然后我们有下面的引理3.1。对于具有终端概率约束的随机最优控制问题,当且仅当存在一个自适应子鞅(P(s))s时,终端概率约束成立∈[t,t]这样P(t)=q,P(t)≤[X(T)≥v] 。3.1随机目标问题的简化6证明。让我们首先证明(<=): 因为P(s)是次鞅,所以我们有[X(T)≥五]≥ E【P(T)| Ft】≥ P(t)=q。证明逆向含义(=>), 让我们首先表示Q:=E[Xs(T)≥五],P(s):=E[Xs(T)≥五]Fs公司- (q)- q) ,其中xs表示初始时间为s的解决方案∈ [t,t],那么P是一个适应鞅,下面的声明如下。我们注意到,当概率约束有效时,次鞅P由P(s)=E给出[X(T)≥五]Fs公司,因此,P实际上是一个自适应鞅,我们得到了新的状态变量P(s)=q+ZTtαP(s)dW(s),(12),其中αP,取R中的值,是一个新的控制,它先验地不能假设有界,是从鞅表示定理推导出来的。备注3.2。
|