今日课程提纲
本节课是强化学习纲要系列的第三讲,主要内容围绕“无模型条件下的预测与控制”(model free prediction and control)展开。我们将探讨在缺乏环境模型的情况下,如何有效地进行策略评估与优化。
此前课程中,我们已经引入了马尔可夫决策过程(MDP)的基本框架,并讲解了如何在给定某一策略的前提下,评估该策略所对应的长期价值。此外,还介绍了两种经典的MDP控制方法——策略迭代(policy iteration)和值迭代(value iteration),它们依赖于对环境动态的完整了解。
然而,在实际应用中,大多数场景并不存在现成的环境模型。也就是说,我们通常无法预先知道状态转移概率或奖励函数。这种情况下,是否已知MDP的结构就成为算法选择的关键因素。正因如此,我们需要转向无需模型信息的方法,即所谓的“无模型”(model free)学习方式。
本节课的重点正是这类不依赖模型的学习机制,重点讲解如何在未知环境动态的前提下,依然能够实现有效的策略预测与控制。


雷达卡


京公网安备 11010802022788号







