发帖

楼主: 时光永痕

2349 0

[数据挖掘新闻] 强化学习（Q学习）-简介（第1部分） [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

17%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-8-5 19:11:03 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

强化学习（Q学习）-简介（第1部分）
您是否听说过AI学会自己玩计算机游戏并给人类专家玩家进行激烈的比赛？
Deepmind是一个非常受欢迎的例子，该公司的AlphaGo程序在2016年击败了韩国围棋世界冠军。除此之外，还有其他AI代理开发，旨在玩Atari游戏，例如Br??eakout，Pong和Space Invaders。
这些AI代理使用强化学习算法，这是三种基本机器学习范式之一，此外还有  监督学习  和  无监督学习。
强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和开发（当前知识）之间找到平衡。
注意：如果您已经了解RL和Q学习概念，则可以直接转到第2部分，该部分使用Scratch中的R实现了Q学习的实现。
强化学习  （RL）
RL是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大程度地提高累积奖励的概念有关。
例如，考虑上车的过程，其中奖励是用总上车时间的负数来衡量的（或者，上车的成本等于上车时间）。一种策略是在火车开门后立即进入车门，以最大程度地减少自己的最初等待时间。但是，如果火车很拥挤，那么在您进入登机门的最初动作之后，您将有一个缓慢的进入通道，因为在您尝试登机的过程中，有人在争吵您要离开火车。这样，总登机时间或费用为：
0秒等待时间+ 15秒战斗时间
在第二天，通过随机的机会（探索），您决定等待并让其他人首先离开。最初会导致更长的等待时间。但是，与其他乘客的争斗较少。总体而言，这条道路的报酬比前一天更高，因为现在的总登机时间为：
5秒等待时间+ 0秒战斗时间。
通过探索，尽管最初的（患者）行动导致了比强制性策略更大的成本（或负回报），但总体成本较低，因此揭示了一种更有回报的策略。
没有为此图片提供替代文字
强化学习下的许多算法。在本文中，我们将重点介绍Q学习，这是其他RL算法中最著名的一种。
Q学习
Q学习是一种基于众所周知的Bellman方程的无策略，无模型的RL算法。
贝尔曼方程式：
贝尔曼方程
哪里：
Alpha（α）  -学习率（0 <α≤1）-它是更新Q值的速率。高Alpha值（接近1）意味着Q值的大小将快速更新，并且需要较少的迭代学习。同样，较低的Alpha值将缓慢更新Q值，并需要更多的迭代来学习。
Gamma（γ）- 折现因子（0≤γ≤1）-确定我们对未来奖励的重视程度。折现系数的较高值（接近1）可以捕获长期有效奖励，而折现系数为0则使我们的代理仅考虑即时奖励，因此使其贪婪。
要了解的重要术语：
行动（A）：特工可以采取的所有可能的行动
状态（S）：环境返回的当前状态。
奖励（R）：立即返回从环境中返回的值，以评估上一个操作。
策略（π）：代理用来基于当前状态确定下一个动作的策略。
值（V）：预期长期收益（有折扣），而不是政策π下的短期收益。
Q值或操作值（Q）：  Q值类似于Value，不同之处在于它需要一个额外的参数，即当前Action。 Q（状态，动作）  是指根据政策π采取行动后的当前状态的长期回报。
伪代码：
参考：https://www.cse.unsw.edu.au/~cs9417ml/RL1/algorithms.html
可以将此过程方法转换为简单的语言步骤，如下所示：
没有为此图片提供替代文字
初始化Q值表  Q（s，a）。
观察当前状态  s。
根据操作选择策略之一（软，贪婪或softmax）为该状态选择一个操作  a。
采取行动，观察奖励  r和新状态  s'。
使用观察到的奖励和下一状态可能的最大奖励来更新状态的Q值。根据上述公式和参数进行更新。
将状态设置为新状态，然后重复该过程，直到达到终端状态为止。
强化学习是一组很棒且有趣的算法，但是在许多情况下，您不应使用强化学习模型：
当您有足够的标签数据可以使用监督学习方法解决问题时。
当您没有强大的计算能力和学习时间时，RL算法又很繁琐，需要花费更长的时间进行训练。
我希望本文能对RL和Q学习算法有所概述。如果您仍然好奇并希望看到此方法，  请查看“强化学习”的第2部分。使用Scratch中的R实现了Q学习。

关注 CDA 人工智能学院，回复“录播”获取更多人工智能精选直播视频！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：bellman scratch Alpha Space 等待时间

[数据挖掘新闻] 强化学习（Q学习）-简介（第1部分） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 强化学习（Q学习）-简介（第1部分） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群