楼主: 白昼的星辰
159 0

[其他] 【强化学习】04周博磊强化学习纲要学习笔记——第二课下 [推广有奖]

  • 0关注
  • 0粉丝

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
10 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-12-25
最后登录
2018-12-25

楼主
白昼的星辰 发表于 2025-12-4 17:56:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

今日课程提纲

本节将重点讲解马尔科夫决策过程(MDP)中的两大核心问题:预测(prediction)与控制(control)。这两个问题构成了强化学习中策略评估与优化的基础。

一、Prediction(预测)

在已知一个完整的马尔科夫决策过程以及某个特定策略π的前提下,预测任务的目标是计算该策略下的状态价值函数(value function)。换句话说,就是评估在每个状态下遵循该策略所能获得的期望回报。这一过程不涉及策略的改进,仅聚焦于价值的准确估计。

二、Control(控制)

控制问题则更进一步,其目标是从给定的马尔科夫决策过程中寻找到最优策略。输入为环境模型本身,输出包括两个部分:一是最优价值函数(optimal value function),二是对应的最优策略(optimal policy)。通过不断迭代优化,使得智能体能够在长期运行中获得最大累积奖励。

三、Dynamic Programming 动态规划

在解决MDP中的prediction和control问题时,动态规划是一种极为有效的数学工具。它依赖于问题具备“最优子结构”(optimal substructure)的特性——即整体最优解可以通过各子问题的最优解构造而成。

马尔科夫决策过程天然满足这一条件,这主要体现在Bellman方程所体现的递归结构上。通过将当前状态的价值与其后继状态的价值相关联,一旦子状态的价值被求解出来,便可逐步反向推导出前序状态的价值。这种机制允许我们存储并重用已计算的结果,从而大幅提升计算效率。

因此,无论是进行策略评估(对应prediction),还是策略改进与优化(对应control),动态规划都提供了一套系统化的迭代方法来逼近最终解。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习笔记 习笔记 Programming Prediction Structure
相关内容:强化学习笔记学习

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-6 14:14