|
更新规则修改后的Q-学习算法(RW±)的更新规则由(Lefebvre et al.,2017)Qπ(st+1,at+1)=Qπ(st,at)给出+α+δ(t)如果δ(t)>0,α-δ(t)如果δ(t)<0。(10) 当预测误差为正时,这意味着实际回报率(st,at,st+1)优于预期回报率qπ(st,at),学习率α+调整RW±模型的振幅允许更新的振幅不同,接下来是积极的(好环境情绪化新闻)和消极的(坏环境情绪化±积极和消极体验)。此外,给定Q值,执行softmax规则的相关策略如下:π(st)=e(Qπ(st,at)β)/e(Qπ(st,at)β)+e(Qπ(st,at)β),(11) 其中β是一个调整决策随机性的标度参数,用于控制勘探开发权衡。(11) 是基于关联值的一组选项的标准随机性。ICML 2019Critic NetworkActor网络的提交和格式说明图4。学习网络架构。3.3. 自适应DDPG我们使用自适应DDPG算法来最大化投资回报。DDPG是确定性策略梯度(DPG)算法的改进版本,DPG基于策略梯度(PG)改进。对于DDPG,Q-learning使用贪心操作在+1处最大化Q(st+1,at+1),状态st+1如下Qπ(st,at)=Est+1r(st,at,st+1)+γmaxat+1Q(st+1,at+1). (12) 如图4所示,自适应DDPG包括一个actornetwork和一个Critical network。
|