楼主: 徐梅艳
89 0

[其他] 【强化学习】05周博磊强化学习纲要学习笔记——第三课上 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-4-15
最后登录
2018-4-15

楼主
徐梅艳 发表于 2025-12-9 10:52:49 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

今日课程提纲

本节课是强化学习纲要系列的第三讲,主要内容围绕“无模型条件下的预测与控制”(model free prediction and control)展开。我们将探讨在缺乏环境模型的情况下,如何有效地进行策略评估与优化。

此前课程中,我们已经引入了马尔可夫决策过程(MDP)的基本框架,并讲解了如何在给定某一策略的前提下,评估该策略所对应的长期价值。此外,还介绍了两种经典的MDP控制方法——策略迭代(policy iteration)和值迭代(value iteration),它们依赖于对环境动态的完整了解。

然而,在实际应用中,大多数场景并不存在现成的环境模型。也就是说,我们通常无法预先知道状态转移概率或奖励函数。这种情况下,是否已知MDP的结构就成为算法选择的关键因素。正因如此,我们需要转向无需模型信息的方法,即所谓的“无模型”(model free)学习方式。

本节课的重点正是这类不依赖模型的学习机制,重点讲解如何在未知环境动态的前提下,依然能够实现有效的策略预测与控制。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习笔记 习笔记 Prediction iteration control
相关内容:强化学习笔记学习

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 14:55