楼主: 非凸科技
1191 5

[交易平台及行情软件] 机器学习之“强化学习” [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

硕士生

33%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
5.5715
学术水平
5 点
热心指数
5 点
信用等级
5 点
经验
1191 点
帖子
70
精华
0
在线时间
66 小时
注册时间
2022-6-20
最后登录
2025-4-29

楼主
非凸科技 发表于 2022-9-30 11:23:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最基本的强化学习建立在马尔可夫决策过程(Markov Decision Process,MDP)上,当模型的动态特征已知时可以按照动态规划(Dynamic Programming,DP)进行迭代求解。

1988 年,时间差分算法(Temporal-Difference Method,TD)被应用于价值函数的迭代计算,它与类似的蒙特卡洛算法(Monte Carlo Method,MC)一样并不需要预先知道动态特征。本质上都被看作是 DP 的近似算法。

1989 年,经典的强化学习算法 Q-学习(Q-learning)被提出,它类似于 DP 中的价值迭代算法,但无需预先知道动态特征。

1994 年,SARSA 算法被提出,与 Q-learning 不同的是,SARSA 是同轨的(Onpolicy),即更新时下一步的动作依然按照原策略进行选取,它相对于 Q-learning 更加保守。

2013 年前后,深度学习与强化学习的结合,深度 Q 学习(Deep Q-learning)出现。以 Deep Q-learning 为代表的深度强化学习被广泛用于游戏、机器人、自动驾驶等各个领域。

2014 年左右,一些基于策略的(Policy-based)优化算法被提出。与之前的基于价值的(Value-based)算法不同,它整体评估一个策略,然后基于评估进行优化。它与深度学习联系紧密,被广泛应用于各个领域。
1.png 2.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 Monte Carlo Programming difference Learning

沙发
nolonger123 发表于 2022-9-30 13:04:32 来自手机
非凸科技 发表于 2022-9-30 11:23
最基本的强化学习建立在马尔可夫决策过程(Markov Decision Process,MDP)上,当模型的动态特征已知时可以 ...

藤椅
三江鸿 发表于 2022-10-2 20:43:18 来自手机
又一个国庆快乐
点赞支持

板凳
eeabcde 发表于 2022-10-7 16:01:21
点赞支持

报纸
yshuise1 发表于 2023-1-5 17:07:47
萨顿的《强化学习》可以看看

地板
yshuise1 发表于 2023-1-16 15:30:28
  萨顿计是牛顿

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群
GMT+8, 2026-2-24 04:21