|
这里utis是时间t时代理的效用,用γ贴现∈ [0,1](Sutton和Barto,1998)。对于每个州xt∈ X代理在以下位置选择操作:∈ 概率为π(A | x)的A,其中π(A | x)是代理的策略。Q-学习依赖于动作值函数Q,该函数估计任何给定状态动作对的平均折扣率:Qπ(x,a)=E[Ut | xt=x,at=a]。对于任何样本,可以使用Bellman最优算子将当前估计值与贪婪的一步前瞻进行比较,T Q(x,a)=例如u+γmaxaQ(x,a)·。这个迭代过程产生了最优QfunctionQ*(x,a)=最大πQπ(x,a),这很容易定义最优策略π*(x,a)=δ(argmaxaQ*(x,a)- a) ,其中δ(·)是Dirac delta函数。DQN(Mnih等人,2015)使用φ参数化的神经网络来表示Qfunction。为了确保充分的探索,特工在培训期间从贪婪的策略中选择行动。从与环境的交互中收集一批经验后,更新参数以最小化DQN损失函数:L(φ)=bXj=1[(yDQNj-Q(xj,aj;φ))],(1)这里yDQNj=uj+γmaxajQ(xj,aj;φ-), 是目标函数和φ-是目标网络,其中包含参数的旧副本。该目标网络有助于稳定训练。到目前为止,我们假设代理可以访问系统的马尔可夫状态x。在部分可观察设置中,需要根据代理的动作观察历史来估计该状态。在复发性深度RL(Hausknecht和Stone,2015)中,这可以通过使用递归神经网络来实现,如LSTM(Hochreiter和Schmidhuber,1997)或我们在这里使用的GRU。B、 2多Agent强化学习和独立Q-学习在多Agent强化学习中,每个Agent∈ N接收私有观测O(x,i),其中i是代理索引,O是观测函数。
|