楼主: 514050209
2408 4

【李善宰和你讨论进化神经科学】第十二记:通过深度视觉特征理解人类演示 [推广有奖]

  • 0关注
  • 9粉丝

博士生

49%

还不是VIP/贵宾

-

威望
0
论坛币
17984 个
通用积分
5.5645
学术水平
16 点
热心指数
19 点
信用等级
16 点
经验
3743 点
帖子
147
精华
0
在线时间
175 小时
注册时间
2013-2-21
最后登录
2024-2-20

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币





奖励功能设计和探索时间可以说是在现实世界中部署强化学习(RL)代理商的最大障碍。在许多现实世界的任务中,设计奖励功能需要相当多的手工工程,并且通常需要安装附加的传感器来测量任务是否已成功执行。此外,许多有趣的任务包括必须按顺序执行的多个隐式中间步骤。即使可以测量最终结果,也不一定就这些中间步骤提供反馈。为了解决这些问题,我们提出利用深层模型学习的中间视觉表征的抽象能力,从少量示范中快速推断感知奖励功能。我们提出一种方法,能够从只有少数演示序列中识别任务的关键中间步骤,并自动识别用于识别这些步骤的最具歧视性的功能。这种方法利用预训练深层模型中的特征,但不需要明确规定子目标。所得到的奖励功能然后可以由RL代理使用来学习在现实世界中进行任务。为了评估学习奖励,我们提出了两个现实世界任务的定性结果,并针对人性化的奖励功能进行了定量评估。我们还表明,我们的方法可以用来学习使用真实机器人的现实世界的门开放技能,即使用于奖励学习的演示是由人们使用自己的手来提供的。据我们所知,这些是第一个结果,显示复杂的机器人操纵技能可以直接学习,没有监督的标签从执行任务的人的视频。



1612.06699.pdf (9.77 MB, 需要: 1 个论坛币)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
钱学森64 发表于 2017-7-24 20:16:14 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
三江鸿 发表于 2022-5-16 08:08:26 |只看作者 |坛友微信交流群
感谢分享

使用道具

板凳
saplow 发表于 2022-9-13 12:50:08 |只看作者 |坛友微信交流群
好贴就点赞,一起拿积分

使用道具

报纸
三江鸿 发表于 2022-10-29 13:54:41 来自手机 |只看作者 |坛友微信交流群
点个赞加点人气
感谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-19 21:08