|
选择与状态无关的先验π(at | yt)=π(at),虽然不是很关键,但会将模型中的自由参数数量减少两个,并简化以下一些分析,因此将继续假设。它还使得没有必要在前面的(29)中指定\'ytin的值(等效地,我们可以将其初始化为零)。定义先验(29)的最终超参数集仅包括三个值:^a、ρa、∑p.4.3 Bellman最优方程LetV?t(yt)=最大π(·| y)E“t-1Xt=tγt-t^Rt(yt,at)yt#(31)最优状态值函数V?t(xt)满足Bellman最优方程(见例[49])V?t(yt)=maxat^Rt(yt,at)+γEt,at五、t+1(yt+1)(32)最优策略π?可以从V获得?如下所示:π?t(at | yt)=arg maxat^Rt(yt,at)+γEt,at五、t+1(yt+1)(33)强化学习(RL)的目标是基于数据样本求解Bellman最优方程。假设通过RL找到一个最优值函数,求解最优策略π?采用等式(33)中的另一个优化问题。4.4熵正则化Bellman最优性方程【11】之后,我们首先使用Fenchel类型表示法重新表述Bellman最优性方程:V?t(yt)=最大π(·| y)∈PXat∈Atπ(At | yt)^Rt(yt,at)+γEt,at五、t+1(yt+1)(34)此处P=π : π ≥ 0,1Tπ=1表示所有有效分布的集合。公式(34)等价于原始Bellman最优方程(31),因为对于任何x∈ Rn,我们有maxi∈{1,…,n}xi=最大π≥0,||π||≤1πTx.注意,虽然我们使用离散符号来简化表示,但通过用积分替换和,下面的所有公式都可以用连续符号等效表示。
|