奖励功能设计和探索时间可以说是在现实世界中部署强化学习(RL)代理商的最大障碍。在许多现实世界的任务中,设计奖励功能需要相当多的手工工程,并且通常需要安装附加的传感器来测量任务是否已成功执行。此外,许多有趣的任务包括必须按顺序执行的多个隐式中间步骤。即使可以测量最终结果,也不一定就这些中间步骤提供反馈。为了解决这些问题,我们提出利用深层模型学习的中间视觉表征的抽象能力,从少量示范中快速推断感知奖励功能。我们提出一种方法,能够从只有少数演示序列中识别任务的关键中间步骤,并自动识别用于识别这些步骤的最具歧视性的功能。这种方法利用预训练深层模型中的特征,但不需要明确规定子目标。所得到的奖励功能然后可以由RL代理使用来学习在现实世界中进行任务。为了评估学习奖励,我们提出了两个现实世界任务的定性结果,并针对人性化的奖励功能进行了定量评估。我们还表明,我们的方法可以用来学习使用真实机器人的现实世界的门开放技能,即使用于奖励学习的演示是由人们使用自己的手来提供的。据我们所知,这些是第一个结果,显示复杂的机器人操纵技能可以直接学习,没有监督的标签从执行任务的人的视频。