|
因此,我们使用近似动态规划递归^Vn(Xn)=infun∈^Un(Xn)n^Cn(Xn,Un)o,其中^Cn(Xn,Un):=^EZtn+1tnπs(X(s),un)ds+^Vn+1(X(tn+1))Xn,un.(2.10)以上,^E是近似投影算子,可容许控制集^Unis也通过^pn(·,·),即^Un(Xn)近似:=u:^pn(Xn,u)<p, 或^qn(·,·),即^Un(Xn)=u:^qn(Xn,u)≤ 0, 见(2.8)。估计最优控制^un∈^Un(Xn)满意度^Vn(Xn)=^Cn(Xn,^Un)。我们的算法和定义回归蒙特卡罗范式的关键思想是通过基于蒙特卡罗模拟的经验回归实现^E和^U。换言之,我们基于X的实现路径构建随机、概率定义的近似。这一理念允许同时处理数值积分(针对随机冲击inX)和数值插值(对于任意X定义Vn(X))以解(2.10)。要理解RMC,请记住指定^E相当于近似条件期望映射(x,u)7→ E[ψ(X(s))s∈[总氮,总氮+1]|Xn=x,un=u】=:f(x,u),其中我们具体替换ψ(X(s))s∈[总氮,总氮+1]=Ztn+1tnπs(X(s),un)ds+Vn+1(X(tn+1))。为此,我们考虑一个由输入(xn,un)组成的数据集,(xMcn,uMcn)和相应的路径实现y,Ymcw,yj=ψ(x(s))js∈[总氮,总氮+1], 其中(x(s))js∈【tn,tn+1】是从过程(X(s))的分布中独立得出的结果∈[总氮,总氮+1]|(xjn,ujn)。然后,我们使用训练集{xjn,ujn,yj}Mcj=1,通过回归计算f的估计量^f。6 A.BALATA、M.LUDKOVSKI、A.MAHESHWARI和J。
|