|
,0 doCompute for(z,a)∈ Γn×A,^Qn(z,A)=f(z,A)+KX`=1p` bVn+1项目编号+1F(z,a,e`), (2.7)其中ProjΓn+1是Γn+1上的欧几里德投影;^Qnis近似的Q值cat time n计算时间n^An(z)的最优控制∈ 阿格米纳∈A.^Qn(z,a), z∈ Γn;(2.8) 此步骤使用确定性函数的经典优化算法SetBvn(z)=^Qnz、 ^安(z), z∈ Γn;bVnis通过量化价值函数进行估计。时间n的Q值(用Qn表示)定义为以耦合状态动作(x,a)为参数的函数,并返回从时间n到时间n的预期最佳回报,当进程x处于状态x且动作a在时间n选择时;i、 e.Qn:Rd×Rq∈(x,a)7→ f(x,a)+Ean,x[Vn+1(Xn+1)]。备注2.8(2.7)给出的时间n处Q值的估计值与控制变量a不是连续的,这可能会导致运行Qknn时出现一些稳定性问题,尤其是在优化过程中(2.8)。我们参考第3.2.2节。在[Bal+19]中,详细介绍了算法5的扩展,其中Q值函数qn的估计是连续的w.r.t.控制变量。23数值应用在本节中,我们通过不同的示例测试第2节中提出的基于神经网络的算法。在高维方面,我们首先采用了[EHJ17]中已经考虑过的相同示例,以便我们可以直接将我们的结果与他们的结果进行比较,并从线性二次型控制问题中选取另一个示例,其显式解析解作为参考值。
|