190 0

[其他] 【强化学习基础(2)】被动强化学习:学习价值函数 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-11-12
最后登录
2018-11-12

楼主
一个大一小萌新 发表于 2025-11-26 18:59:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

核心观点

被动强化学习指的是智能体在遵循一个固定策略的前提下,通过观察环境反馈来逐步估计各状态的价值函数。它不涉及动作选择的决策过程,而是专注于评估当前策略下各个状态的长期收益。

可以类比为一名新手司机正在按照教练指定的路线练习驾驶:无需自己决定方向,只需执行既定路径,并根据实际行驶中的路况和结果,判断“这条路线的整体表现如何”。

其关键意义在于:

  • 被动学习构成了主动学习的基础。在该模式中,智能体并不尝试优化行为策略,而是集中于理解现有策略的效果,即回答“这个状态下能获得多少回报”,而非“我该怎么做最好”。
  • 它是掌握强化学习机制的重要起点。通过分析状态价值,智能体能够建立对环境动态的基本认知,为后续自主选择最优动作提供依据。

从方法论角度看,被动强化学习涵盖了多种技术路径——包括直接效用估计、自适应动态规划以及时序差分学习,每种方法在效率、计算开销与适用性方面各有特点。

一、什么是被动强化学习?

1.1 被动学习的定义

被动强化学习(Passive Reinforcement Learning)是指智能体在给定策略π(s)下运行,不主动调整行为规则,仅通过执行动作并观察后继状态与即时奖励,来估计每个状态s的价值函数U(s)的过程。其中,U(s)表示从状态s出发,在策略π指导下所能获得的期望累积折扣奖励。

此时,智能体对环境的转移概率P(s’|s, a)和真实奖励函数R(s, a, s’)是未知的,只能依赖经验数据进行学习。这类似于一个人沿着一条未知道路反复通行,虽不能改变路线,但可通过多次体验总结出“这条路整体是否高效或安全”。

1.2 被动学习的目标

目标是准确估计策略π下的状态价值函数U^π(s),其形式化定义如下:

U^π(s) = E[Σ_{t=0}^∞ γ^t R(S_t, π(S_t), S_{t+1})]

其中γ∈[0,1)为折扣因子,用于降低未来奖励的影响权重;R代表每步所获奖励。该公式表明,价值函数是对从状态s开始、依循策略π持续行动所产生的一系列折扣奖励的数学期望。

通常情况下,γ小于1意味着“当下获得的奖励比远期更受重视”,从而保证总和收敛,也反映了现实任务中即时反馈的重要性。

1.3 被动学习的例子

考虑一个经典的4×3网格世界场景:智能体在一个4行3列的方格中移动,起始点固定,存在两个终止状态——目标位置给予+1奖励,陷阱位置施加-1惩罚,其余每一步均有-0.04的小额负奖励,促使尽快达成目标。

假设智能体被赋予一个确定性策略(如“优先向上,其次向右”),它将严格按照此规则行动。在多次试验中,它记录每次经过的状态序列及其最终回报,进而估算每个位置的平均价值。例如,靠近终点的位置会因频繁导向高回报而具有较高估值,而邻近陷阱的区域则趋于低值。

[此处为图片1]

二、直接效用估计

2.1 直接效用估计的思想

直接效用估计(Direct Utility Estimation)是一种直观的学习方式:将某个状态的实际效用视为从该状态出发所获得的完整轨迹奖励总和(reward-to-go)。每一次完整的试验都会为所有访问过的状态提供一个独立的样本值。

就像一个人重复走同一条上班路线,每次都记录全程耗时与舒适度总评,最后取平均来评价这条路的整体质量。若多数情况下通勤顺利,则均值偏高;反之则偏低。

2.2 直接效用估计的过程

具体流程如下:智能体依据固定策略开展多轮试验,每轮完整经历一条状态序列直至终止状态。在每次试验结束后,回溯所有访问过的状态,计算从每个状态开始到结束的累计折扣奖励,作为该状态的一个观测样本。

举例说明:某次试验中,智能体依次经过(1,1)→(1,2)→(1,3)→(2,3)→(3,3)→(4,3),并在终点获得+1奖励。那么对于状态(1,1),其对应的样本值即为整条路径的折扣后总奖励。经过大量此类试验,统计各状态对应样本的算术平均,即可得到其效用估计值。

2.3 直接效用估计的局限性

尽管实现简单且易于理解,该方法仍存在明显不足:

  • 忽略状态间的关联性:每个状态被视为孤立个体,未利用马尔可夫性质中“当前状态包含历史全部信息”的特性,导致学习效率低下。
  • 方差较大:由于完全依赖完整轨迹的总奖励,随机性较强的环境会导致样本波动剧烈,收敛速度慢。
  • 无法处理无限长轨迹:在非终止型任务中难以应用,因为无法获取“最终奖励总和”。

这些问题促使研究者发展更高效的替代方法,如基于模型的自适应动态规划和增量式的时序差分学习。

三、自适应动态规划

3.1 自适应动态规划的思想

自适应动态规划(Adaptive Dynamic Programming, ADP)的核心思想是先学习环境的动态模型,即状态转移概率P(s’|s,a)和奖励函数R(s,a,s’)的估计,然后结合已知策略π(s),使用动态规划算法(如策略迭代)求解对应的价值函数U^π(s)。

这种方法借鉴了传统动态规划的优势,但在模型参数未知时,通过交互经验逐步构建模型估计,实现了从经验到结构知识的转化。

3.2 学习转移模型

智能体在与环境交互过程中,统计每个状态-动作对(s,a)下转移到下一状态s’的频率,以此估计转移概率:

P(s’|s,a) = 访问(s,a)后到达s’的次数 / 总共执行(s,a)的次数

同时,也可通过平均实际观测到的奖励来估计R(s,a,s’)。随着试验次数增加,这些估计逐渐逼近真实值。

3.3 使用动态规划求解

一旦获得模型估计P和R,便可构造贝尔曼方程并采用迭代方法更新价值函数:

U_i+1(s) = Σ_a π(a|s) Σ_s’ P(s’|s,a)[R(s,a,s’) + γU_i(s’)]

该过程称为“模型基策略评估”,利用学习到的模型模拟未来可能路径,比单纯依赖实际轨迹更高效地传播价值信息。

3.4 自适应动态规划的优势和局限

优势:

  • 充分利用马尔可夫结构,减少估计方差。
  • 一旦模型准确,可快速精确计算价值函数。
  • 适用于需要精细建模的复杂系统。

局限:

  • 学习模型本身需要大量样本,尤其在状态空间庞大时效率较低。
  • 模型误差会传播至价值函数,影响最终精度。
  • 对稀疏访问的状态预测不可靠。

四、时序差分学习

4.1 时序差分学习的思想

时序差分学习(Temporal Difference Learning, TD Learning)融合了蒙特卡洛方法的无偏性和动态规划的自举(bootstrapping)机制。它不需要完整轨迹即可在线更新价值估计,利用当前状态与下一个状态之间的差异(即TD误差)驱动学习。

其核心理念是:不必等到任务结束,只要看到下一个状态的价值估计,就可以立即调整当前状态的估值。

4.2 时序差分更新规则

最基础的形式为TD(0)算法,其更新公式为:

U(s) ← U(s) + α[R(s') + γU(s') - U(s)]

其中α为学习率,R(s')为即时奖励,γU(s')为对未来回报的估计,两者之和构成目标值,减去当前U(s)即为TD误差。该误差反映了预测与实际之间的偏差,用于逐步修正估计。

这一机制允许实时、增量式学习,非常适合连续性任务。

4.3 时序差分学习的优势

  • 无需模型:不像ADP那样需显式学习转移函数。
  • 在线学习:可在每一步进行更新,响应迅速。
  • 低方差:相比蒙特卡洛方法,因使用自举减少了对单一轨迹的依赖。
  • 内存效率高:仅需存储当前状态价值表。

4.4 时序差分学习的收敛性

在满足一定条件下(如步长递减、充分探索等),TD(0)算法几乎必然收敛到真实的U^π(s)。虽然初始估计可能存在偏差,但由于持续接受新数据输入,误差逐步缩小。

此外,引入资格迹的TD(λ)方法可在短期更新与长期回报之间灵活权衡,进一步提升性能。

[此处为图片2]

五、三种方法的比较

5.1 学习效率

直接效用估计依赖完整轨迹,学习缓慢;ADP一旦建模完成,可通过内部模拟加速价值传播;TD学习则介于二者之间,具备较快的初期响应能力。

5.2 计算成本

直接法计算最轻,仅需累加和平均;ADP需维护模型并运行DP迭代,开销最大;TD学习计算量适中,适合资源受限场景。

5.3 适用场景

  • 直接估计适合小规模、轨迹短且可重复的任务。
  • ADP适用于可建模、要求高精度的应用(如机器人控制)。
  • TD学习广泛应用于大规模、连续性任务(如游戏AI、推荐系统)。

5.4 实际应用

在现实系统中,TD学习因其高效性和实用性成为主流选择,特别是在AlphaGo、自动驾驶等领域广泛应用。ADP多见于工程控制系统中,而直接效用估计主要用于教学演示或基准对比。

六、被动学习的实际意义

6.1 为主动学习打基础

被动学习帮助智能体理解特定策略的表现,是迈向策略优化的第一步。只有先学会评估,才能进一步改进。

6.2 理解环境

通过对状态价值的学习,智能体可以获得关于环境动力学的隐含知识,即使没有显式模型也能形成有效认知。

6.3 评估策略

在策略比较阶段,被动学习可用于量化不同策略的性能差异,辅助选择最优方案。

七、总结

被动强化学习虽不涉及策略优化,却是整个强化学习体系不可或缺的一环。它提供了评估固定策略下状态价值的有效手段,涵盖从简单的直接估计到复杂的自适应动态规划,再到高效的时序差分学习等多种方法。

这些方法在准确性、效率和适用范围上各具特色,共同支撑着智能体对环境的理解与后续决策能力的发展。掌握被动学习机制,是深入理解强化学习原理的关键步骤。

在强化学习中,直接效用估计方法虽然实现简单,但存在一个显著缺陷:它忽视了不同状态之间的依赖性。实际上,某一状态的效用值并非孤立存在,而是与后续状态的效用密切相关。根据贝尔曼方程:

U^π(s) = Σ_{s’} P(s’|s, π(s))[R(s, π(s), s’) + γU^π(s’)]

可以发现,状态的效用不仅由当前获得的奖励决定,还受到未来状态效用的影响。而直接效用估计忽略了这种动态关联,将每个状态单独处理,相当于假设“一条路的价值仅取决于这条路本身,而不取决于它最终通向何处”。

这种独立处理方式导致算法需要更多的采样和试验才能收敛,因为它探索的是一个远大于实际所需的假设空间,从而降低了学习效率。

[此处为图片1]

三、自适应动态规划(ADP)的核心思想

为克服上述问题,自适应动态规划(Adaptive Dynamic Programming, ADP)提出了一种更高效的学习策略:智能体首先学习环境的状态转移模型,然后利用动态规划技术求解对应的马尔可夫决策过程(MDP),从而充分利用状态间效用的内在约束关系。

这种方法类似于不仅记录“某条路径通向哪里”,还掌握“采取某个动作后,以多大概率转移到哪些新状态”,并基于这些概率信息来精确评估该路径的长期价值。通过引入转移模型,ADP能够有效利用状态间的依赖结构,大幅提升学习速度和准确性。

3.2 转移模型的学习机制

在完全可观测环境中,学习状态转移模型P(s’|s, a)本质上是一个监督学习任务:输入为状态-动作对(s, a),输出为目标状态s’。该模型通常以表格形式存储,并通过累计观测频次进行估计。

例如,在状态(3,3)执行“向右”动作共4次,其中有2次转移到(3,2),另2次到达(4,3),则可得:P((3,2)|(3,3), Right) = 1/2,P((4,3)|(3,3), Right) = 1/2。随着经验积累,智能体逐步构建出较为准确的环境转移模型。

3.3 基于动态规划的效用求解

一旦获得转移模型与奖励函数,便可将其代入贝尔曼方程,求解各状态的效用值。对于固定策略π,所有状态的贝尔曼方程构成一个线性方程组,可通过标准线性代数工具直接求解。

另一种更高效的替代方案是“修改的策略迭代”:每次模型更新后,采用简化的价值迭代过程调整效用估计。由于模型变化通常较小,先前的效用估计可作为良好初值,从而加快收敛速度。

3.4 自适应动态规划的优势与局限性

ADP的主要优势在于其高效性——通过建模状态转移关系,充分利用了状态效用之间的结构性约束,显著提升了学习效率和收敛速度。同时,智能体能够在未实际经历某些路径的情况下,通过推理预测其潜在价值。

然而,ADP也面临明显限制:当状态空间极大时(如西洋双陆棋拥有约10^20个可能状态),建立完整的转移模型变得不可行;此外,每次模型更新后都需要重新计算效用,带来较高的计算开销。

四、时序差分学习的基本原理

时序差分学习(Temporal Difference Learning, TD)提供了一种不同的解决思路:它不显式求解贝尔曼方程,也不依赖完整的转移模型,而是利用实际观察到的状态转移,逐步调整已访问状态的效用估计,使其逐渐满足贝尔曼一致性条件。

这一过程如同每向前走一步,就立即回过头修正上一状态的价值估计,使前后两步的价值尽可能协调一致。TD方法无需等待整个试验结束,也不需掌握全部转移概率,仅依靠单步过渡即可完成更新,非常适合在线和实时学习场景。

4.2 TD更新规则及其含义

时序差分学习的核心更新公式如下:

U^π(s) ← U^π(s) + α[R(s, π(s), s') + γU^π(s') - U^π(s)]

其中α为学习率参数。该式表示:将当前状态s的效用估计朝着“即时奖励加上折扣后的后续状态效用”方向进行微调。

公式中的项 R(s, π(s), s') + γU^π(s') - U^π(s) 被称为“时序差分误差”(TD error),反映了当前效用估计与最新观测结果之间的偏差。通过不断减小该误差,TD算法逐步逼近真实的效用值。

4.3 时序差分学习的优点

TD方法具有实现简单、计算成本低的优点。每次观测只需少量运算,且无需维护转移模型,支持在线增量学习——每经历一次状态转移即可更新一次,无需完整回合数据。

从理论角度看,TD与ADP都致力于实现效用估计的局部一致性。关键区别在于:TD仅依据实际发生的后续状态进行调整(见方程22-3),而ADP则基于所有可能的后续状态及其发生概率进行加权更新(见方程22-2)。随着TD经历足够多的样本转移,其平均效果趋近于ADP的结果。

另一个重要差异是更新强度:TD对每次观测只做一次调整,而ADP会反复传播影响,确保效用估计U与模型P始终保持全局一致。这使得ADP学习更快,但代价是更高的计算负担。

4.4 收敛性分析

若将学习率α设为随状态访问次数递减的函数(如图22-4所示),则U^π(s)能够保证收敛至真实效用值。这意味着:随着某状态被频繁访问,其学习率逐渐降低,更新幅度变小,最终趋于稳定,确保整体估计的渐进一致性。

在4×3世界问题中,时序差分学习的学习曲线表明:经过约100次试验后,效用估计已基本收敛至接近真实值。对于访问频率较低的状态(例如状态(2,1)和(3,2)),它们分别直到第14次和第23次试验才被发现与+1终止状态相连,这突显了充分探索在学习过程中的关键作用。

五、三种方法的比较

5.1 学习效率

直接效用估计由于未考虑状态间的依赖关系,学习效率最低,需大量试验才能实现收敛。相比之下,自适应动态规划通过利用状态之间的约束条件,能够快速收敛,因此具有最高的学习效率。时序差分学习则处于两者之间——它虽不需要完整的环境转移模型,但仍能借助相邻状态的信息进行价值更新,从而在效率上优于直接法。

5.2 计算成本

从计算开销来看,直接效用估计最为轻量,仅需对每个状态的奖励序列进行记录与平均处理。时序差分学习的计算负担也相对较小,每次观测后只需执行一次局部更新操作。而自适应动态规划的计算成本最高,因为它不仅需要学习并维护一个准确的转移模型,还必须在每次模型调整后重新求解整个效用函数。

5.3 适用场景

当状态空间较小且状态间关联较弱时,直接效用估计较为适用。若环境允许构建转移模型且状态空间适中,则自适应动态规划是理想选择。而对于大规模或复杂环境,尤其在无法获取完整转移模型或要求在线学习的情况下,时序差分学习更具优势。

5.4 实际应用

在实际系统中,时序差分学习因在学习效率与计算资源之间取得良好平衡而被广泛采用。它无需先验的转移模型,支持持续在线更新,适用于高维、动态的真实世界任务。自适应动态规划多用于可建模、且对收敛速度有较高要求的场景。直接效用估计则较少独立部署,通常作为性能基准用于对比其他算法的表现。

六、被动学习的实际意义

6.1 为主动学习奠定基础

被动学习构成了主动学习的前提。通过该过程,智能体掌握如何评估各个状态的价值,明确“哪些状态有利,哪些不利”。这种价值认知是后续实现最优动作选择的关键前提。只有理解了状态的好坏,智能体才能规划出通向高回报区域的行为路径。

6.2 增强对环境的理解

被动学习使智能体逐步建立起对环境运行机制的认知。无论是通过自适应动态规划推导出状态转移规律,还是通过时序差分学习积累状态价值信息,这些知识都为后续的决策制定提供了重要支撑。

6.3 支持策略评估

该方法可用于衡量特定策略的有效性。给定某一固定策略,智能体可通过被动学习过程判断其长期表现优劣。这一能力在策略优化、迭代改进以及搜索更优策略的过程中发挥着核心作用。

七、总结

被动强化学习是指智能体在遵循固定策略的前提下,通过观察环境反馈来估计状态价值函数的过程。其本质在于:

智能体不参与决策“应采取何种行动”,而是专注于评估“当前状态的价值高低”

目前主要的三类方法包括:直接效用估计(实现简单但收敛慢)、自适应动态规划(收敛快但依赖转移模型)、以及时序差分学习(兼顾效率与实用性)。每种方法各有特点,适用于不同类型的任务场景。

需要强调的是:被动学习是通往主动学习的必经之路。只有掌握了状态评估的能力,智能体才有可能进一步学会选择最优动作。深入理解被动学习的原理与技术路径,有助于我们更有效地将强化学习应用于现实问题的求解之中。

[此处为图片1]
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Programming difference Estimation Bootstrap Learning

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-5 04:05