|
锿~ρπθi-1[DKL(πθi-1(·| s)|πθi(·| s))]≤ δ因此,PPO出现了【9】:它提出了新的替代目标,以简化TRPO。其中一个是我们在实验中选择的裁剪替代目标。让我们表示(θ)=πθ(a | s)ππ老(a | s)。裁剪的代理目标可以写为:LCLIP(θ)=E[min(r(θ)A,clip(r(θ),1- , 1 + )A) ]此网络代理目标函数可以以更简单的方式约束更新步骤,实验表明,它在样本复杂性方面确实优于原始目标函数。算法2 PPO1:初始化actoru:S→ Rm+1和σ:S→ diag(σ,σ,···,σm+1)2:对于i=1到m do3:运行策略πθ~ N(u(s),σ(s)),对于T时间步和collect(st,at,rt)4:估计优势^at=Pt>TγT-trt公司- V(st)5:更新旧策略πold← πθ6:对于j=1到N do7:通过策略梯度更新actor策略:XiθLCLIPi(θ)8:通过以下方式更新评论家:L(φ)=-TXt=1^At9:结束FOR 10:结束forV。
|