【李善宰和你讨论进化神经科学】第十二记：通过深度视觉特征理解人类演示 - 人工智能

0关注
9粉丝

博士生

49%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 17984 个
通用积分: 5.5645
学术水平: 16 点
热心指数: 19 点
信用等级: 16 点
经验: 3743 点
帖子: 147
精华: 0
在线时间: 175 小时
注册时间: 2013-2-21
最后登录: 2024-2-20

楼主

514050209

发表于 2017-7-24 19:36:55 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

奖励功能设计和探索时间可以说是在现实世界中部署强化学习（RL）代理商的最大障碍。在许多现实世界的任务中，设计奖励功能需要相当多的手工工程，并且通常需要安装附加的传感器来测量任务是否已成功执行。此外，许多有趣的任务包括必须按顺序执行的多个隐式中间步骤。即使可以测量最终结果，也不一定就这些中间步骤提供反馈。为了解决这些问题，我们提出利用深层模型学习的中间视觉表征的抽象能力，从少量示范中快速推断感知奖励功能。我们提出一种方法，能够从只有少数演示序列中识别任务的关键中间步骤，并自动识别用于识别这些步骤的最具歧视性的功能。这种方法利用预训练深层模型中的特征，但不需要明确规定子目标。所得到的奖励功能然后可以由RL代理使用来学习在现实世界中进行任务。为了评估学习奖励，我们提出了两个现实世界任务的定性结果，并针对人性化的奖励功能进行了定量评估。我们还表明，我们的方法可以用来学习使用真实机器人的现实世界的门开放技能，即使用于奖励学习的演示是由人们使用自己的手来提供的。据我们所知，这些是第一个结果，显示复杂的机器人操纵技能可以直接学习，没有监督的标签从执行任务的人的视频。

1612.06699.pdf (9.77 MB, 需要: 1 个论坛币)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

【李善宰和你讨论进化神经科学】第十二记：通过深度视觉特征理解人类演示 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

【李善宰和你讨论进化神经科学】第十二记：通过深度视觉特征理解人类演示 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群