【李善宰和你讨论进化神经科学】第十三记：近端策略优化PPO [推广有奖]

0关注
10粉丝

已卖：3763份资源

博士生

50%

还不是VIP/贵宾

威望: 0 级
论坛币: 18312 个
通用积分: 7.4592
学术水平: 16 点
热心指数: 19 点
信用等级: 16 点
经验: 3743 点
帖子: 147
精华: 0
在线时间: 178 小时
注册时间: 2013-2-21
最后登录: 2025-7-19

楼主

514050209

发表于 2017-7-24 19:30:09 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我们提出了一个新的强化学习策略梯度方法，通过与环境的交互取样数据，并利用随机梯度上升优化“替代”目标函数。而标准策略梯度方法对每个数据样本执行一个梯度更新，我们提出了一个新的目标函数，可以实现多个时代的小批量更新。我们称之为近端策略优化（PPO）的新方法具有信任区域策略优化（TRPO）的一些优势，但它们实现起来更为简单，更为通用，并具有更好的样本复杂性（经验性）。我们的实验测试了PPO对基准任务的收集，包括模拟机器人运动和Atari游戏，我们表明PPO优于其他在线策略梯度方法，总体上在样本复杂性，简单性和壁挂时间之间取得了有利的平衡。