人大经济论坛 › 论坛 › 新商科论坛四区（原工商管理论坛） › 行业分析报告 › 【强化学习】05周博磊强化学习纲要学习笔记——第三课上

发帖

楼主: 徐梅艳

131 0

[其他] 【强化学习】05周博磊强化学习纲要学习笔记——第三课上 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-4-15
最后登录: 2018-4-15

楼主

徐梅艳 发表于 2025-12-9 10:52:49 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

今日课程提纲

本节课是强化学习纲要系列的第三讲，主要内容围绕“无模型条件下的预测与控制”（model free prediction and control）展开。我们将探讨在缺乏环境模型的情况下，如何有效地进行策略评估与优化。

此前课程中，我们已经引入了马尔可夫决策过程（MDP）的基本框架，并讲解了如何在给定某一策略的前提下，评估该策略所对应的长期价值。此外，还介绍了两种经典的MDP控制方法——策略迭代（policy iteration）和值迭代（value iteration），它们依赖于对环境动态的完整了解。

然而，在实际应用中，大多数场景并不存在现成的环境模型。也就是说，我们通常无法预先知道状态转移概率或奖励函数。这种情况下，是否已知MDP的结构就成为算法选择的关键因素。正因如此，我们需要转向无需模型信息的方法，即所谓的“无模型”（model free）学习方式。

本节课的重点正是这类不依赖模型的学习机制，重点讲解如何在未知环境动态的前提下，依然能够实现有效的策略预测与控制。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：学习笔记习笔记 Prediction iteration control

本版微信群

扫码
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[其他] 【强化学习】05周博磊强化学习纲要学习笔记——第三课上 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

今日课程提纲

扫码加我拉你入群

浏览过的帖子

浏览过的版块

本版微信群

[其他] 【强化学习】05周博磊强化学习纲要学习笔记——第三课上 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

今日课程提纲

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群