|
“贪婪”政策π?在QLBS模型中使用的总是寻求在当前状态下使动作值函数最大化的动作:π?t(Xt)=参数最大值∈AQ?t(Xt,at)(16)2.3最优Q函数的DP解如果计算Bellmanoptimality方程(14)右侧期望的转移概率已知,则可以使用从t=t开始的反向递归,与最优策略(16)一起求解Bellman方程(14- 1和终端条件(15)。这可以用于测试环境中的基准测试,我们知道这些概率,并且知道奖励函数(7)。将一步奖励(7)代入Bellman最优方程(14),我们发现这是Q?t(Xt,at)是作用变量at的二次方:Q?t(Xt,at)=γEtQt+1Xt+1,a?t+1+ 在St公司- λγEt^∏t+1- 2at^∏t+1^St+at^St, t=0,T- 1(17)作为Q?t(Xt,at)是at的二次函数,最优动作(即对冲)a?最大化Q的t(St)?t(Xt,at)通过解析计算得出:a?t(Xt)=Eth^St^∏t+1+2γλ斯蒂特^St(18) 将公式(18)重新插入公式(17),我们得到了最优作用值函数的显式递归公式:Q?t(Xt,a?t)=γEtQt+1(Xt+1,a?t+1)- λγ^∏t+1+λγ(a?t(Xt))^St, t=0,T-1(19)a在哪里?式(18)中定义了t(Xt)。实际上,用等式表示的向后递归。(19) 和(18)在MonteCarlo设置中求解,其中我们假设可以访问状态变量Xt的NMCsimulated(或real)路径【1】。此外,我们假设我们选择了一组基函数{Φn(x)}。然后,我们可以扩展最佳行动(对冲)a?t(Xt)与最优Q函数Q?基函数中的t(Xt,a?t),具有随时间变化的系数:a?t(Xt)=MXnφntΦn(Xt),Q?t(Xt,a?t)=MXnωntΦn(Xt)(20)系数φnt和ωnt在t=t时向后递归计算- 1.0
|