机器学习之“强化学习”

0关注
0粉丝

等待验证会员

硕士生

34%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 5.5715
学术水平: 5 点
热心指数: 5 点
信用等级: 5 点
经验: 1191 点
帖子: 70
精华: 0
在线时间: 66 小时
注册时间: 2022-6-20
最后登录: 2026-3-12

楼主

非凸科技 发表于 2022-9-30 11:23:31 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

最基本的强化学习建立在马尔可夫决策过程（Markov Decision Process，MDP）上，当模型的动态特征已知时可以按照动态规划（Dynamic Programming，DP）进行迭代求解。

1988 年，时间差分算法（Temporal-Difference Method，TD）被应用于价值函数的迭代计算，它与类似的蒙特卡洛算法（Monte Carlo Method，MC）一样并不需要预先知道动态特征。本质上都被看作是 DP 的近似算法。

1989 年，经典的强化学习算法 Q-学习（Q-learning）被提出，它类似于 DP 中的价值迭代算法，但无需预先知道动态特征。

1994 年，SARSA 算法被提出，与 Q-learning 不同的是，SARSA 是同轨的（Onpolicy），即更新时下一步的动作依然按照原策略进行选取，它相对于 Q-learning 更加保守。

2013 年前后，深度学习与强化学习的结合，深度 Q 学习（Deep Q-learning）出现。以 Deep Q-learning 为代表的深度强化学习被广泛用于游戏、机器人、自动驾驶等各个领域。

2014 年左右，一些基于策略的（Policy-based）优化算法被提出。与之前的基于价值的（Value-based）算法不同，它整体评估一个策略，然后基于评估进行优化。它与深度学习联系紧密，被广泛应用于各个领域。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：机器学习 Monte Carlo Programming difference Learning

[交易平台及行情软件] 机器学习之“强化学习” [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[交易平台及行情软件] 机器学习之“强化学习” [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群