【李善宰和你讨论进化神经科学】第九记： [推广有奖]

0关注
10粉丝

已卖：3763份资源

博士生

50%

还不是VIP/贵宾

威望: 0 级
论坛币: 18312 个
通用积分: 7.4592
学术水平: 16 点
热心指数: 19 点
信用等级: 16 点
经验: 3743 点
帖子: 147
精华: 0
在线时间: 178 小时
注册时间: 2013-2-21
最后登录: 2025-7-19

楼主

514050209

发表于 2017-7-24 19:05:24 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我们将Deep Q-Learning成功的基本思想与连续的行动领域相适应。我们提出一个演员评论家，基于可以在连续动作空间上运行的确定性策略梯度的无模型算法。使用相同的学习算法，网络架构和超参数，我们的算法强大地解决了20多个模拟物理任务，包括经典问题，如电动车摆动，灵巧操纵，腿式运动和汽车驾驶。我们的算法能够找到其性能与通过规划算法发现的策略具有竞争力的策略，从而完全访问域及其衍生物的动态。我们进一步证明，对于许多任务，算法可以直接从原始像素输入端到端学习策略。