简介: 对于赢得比赛和自动驾驶汽车的所有宣传,传统的强化学习(RL)尚未提供作为ML应用程序的可靠工具。在这里,我们探讨了主要缺点以及RL的创新方法,该方法可大大减少训练计算需求和训练时间。
自从强化学习(RL)被公认为是合法的第三种机器学习形式以及有监督和无监督的学习以来,我们一直在等待该杀手级应用证明其价值。
是的RL在游戏(Alpha Go),无人驾驶汽车(尚不在此),无人机控制甚至个人助理等对话系统中都获得过按新闻应得的胜利,但尚无重大突破。
对于需要顺序决策的任何问题,RL应该是我们的首选解决方案,而这些个人的成功也许使您认为RL已经为黄金时间做好了准备,但事实并非如此。
强化学习的缺点
微软RL首席研究员Romain Laroche指出了几个严重的缺陷。尽管有很多问题,但拉罗什指出需要克服的最严重的问题是:
“这在很大程度上是不可靠的。更糟糕的是,由于强化学习过程的随机性,使用不同随机种子的两次运行可能会产生非常不同的结果。”
“ 他们需要数十亿个样本才能获得结果,而在现实应用中提取如此天文数字的样本是不可行的。”
实际上,如果您仔细阅读我们的上一篇博客,了解不断改进AI的障碍,您会发现改进最先进算法所需的不断增加的计算能力正在迅速接近变得不经济的地步。而且,在OpenAI跟踪的示例中,计算量最大的是AlphaGoZero,这是一种RL游戏算法,与下一个最接近的深度学习应用程序相比,其计算量要大几个数量级。
尽管Laroche的研究最近集中在可靠性问题上,并且他取得了一些进展,但如果我们不解决计算需求问题,RL就无法取代其作为重要的ML工具的地位。
颠倒强化学习(UDRL)
瑞士 AI研究组织最近发表的两篇论文通过将RL学习过程颠倒了(Upside Down Reinforcement Learning UDRL),描述了一种独特而出乎意料的方法。JürgenSchmidhuber及其同事说:
“传统强化学习(RL)算法要么通过价值函数预测回报,要么使用策略搜索最大化回报。我们研究了一种替代方法:颠倒强化学习(Upside-Down RL学习或UDRL),主要使用监督学习技术来解决RL问题。”
在使用值函数或策略搜索的传统配置中,RL算法实质上是对状态空间进行完全随机的搜索,以找到最佳解决方案。实际上它是随机搜索的事实说明了训练对计算的巨大需求。学习过程中顺序步骤越多,搜索和计算需求就越大。
新的颠倒方法从监督学习中引入梯度下降,这有望使训练数量级更有效。
这个怎么运作
使用奖励作为输入,UDRL将命令视为期望的奖励和时间范围的组合。例如,“在那么多的时间内获得了那么多的回报”,然后“在更少的时间内得到了更多的回报”。
就像传统的RL一样,UDRL只是通过与其状态空间交互来学习,除了这些独特的命令现在使用这些自生成的命令基于梯度下降来创建学习。
简而言之,这意味着针对先前被认为是成功的实验(梯度下降)进行训练,而不是完全随机的探索。
在具有许多连续步骤的复杂问题上,UDRL被证明比传统的RL更准确,最重要的是,它的训练速度也更快(请参见以下论文的图表左侧绿线的陡度)。
由于梯度下降技术可能依赖于局部最优,欠拟合或过拟合,因此这确实留下了探索/开发问题。
主要应用–模仿学习
UDRL最有趣的应用之一是减少训练时间和减少计算量,这直接体现了它在机器人技术中的示例训练或模仿训练技术的使用能力。
例如,人可以通过复杂操作的步骤(例如,组装整个电子设备)来操纵机械臂。该过程将重复几次,但每次都将被视为成功的示例。
该过程的视频将分为单独的帧进行训练,并作为RNN模型的输入,从而导致监督学习,机器人必须学习模仿。任务将是奖励形式的命令,机器人将通过动作来映射。
尽管这是一项尚待在商业应用中得到证实的新研究,但减少所需计算量和培训时间对于解决RL最大的缺点之一还有很长的路要走。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


雷达卡



京公网安备 11010802022788号







