490 0

[其他] 大模型强化学习(LLM-RL)最前沿综述:从 DPO 到 System 2 推理与后训练扩展 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

小学生

14%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
40 点
帖子
3
精华
0
在线时间
0 小时
注册时间
2018-2-27
最后登录
2018-2-27

楼主
2000啦啦啦啦 发表于 2025-12-1 15:10:08 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

大模型强化学习(LLM-RL)前沿进展综述:从 DPO 到 System 2 推理与后训练扩展

引言:从“预测下一个词”迈向“学会思考”

过去一年中,大语言模型(LLM)的训练方式正经历一场深刻而静默的变革。如果说预训练阶段的目标是让模型通过海量文本掌握“预测下一个 token”的能力,那么强化学习(Reinforcement Learning, RL)则致力于引导模型实现更高层次的认知——即“如何进行有效思考”。

自 ChatGPT 引爆行业以来,基于人类反馈的强化学习(RLHF)迅速成为主流对齐方法。然而,当前的研究早已超越传统的 PPO 算法框架。我们正在进入一个新纪元:利用强化学习激发模型深层推理潜能,探索测试时计算(Test-time Compute)的应用边界,并验证“后训练扩展定律(Post-Training Scaling Laws)”的存在性。

本文将系统梳理当前 LLM-RL 的三大核心发展方向:直接偏好优化、过程监督驱动的推理机制,以及基于合成数据的自我演化路径。

一、对齐范式的简化革命:从 PPO 到 DPO 及其演进版本

在 RLHF 发展初期(2022–2023年),PPO(Proximal Policy Optimization)占据主导地位。但该方法结构复杂,需同时维护四个组件——策略网络(Actor)、价值网络(Critic)、奖励模型(Reward Model)和参考模型(Reference Model),导致训练不稳定且显存消耗巨大。

1. DPO(Direct Preference Optimization)的崛起

由斯坦福大学提出,DPO 彻底改变了这一局面。其关键思想在于:无需显式构建奖励模型。通过数学推导,研究者发现可以直接使用人类标注的偏好数据对(优选回答 vs 劣质回答)来优化策略模型。损失函数设计旨在最大化优质响应与劣质响应之间的对数概率差异,同时引入 KL 散度约束以防止过度偏离原始模型。

公式表达如下:

LDPOθ; πref) = –E(x, yw, yl)D[log σ(β log(πθ(yw|x)/πref(yw|x)) – β log(πθ(yl|x)/πref(yl|x))) ]

[此处为图片1]

现状与影响:
DPO 已成为开源社区中的标准配置,广泛应用于 HuggingFace Zephyr、Llama-3-Instruct 等项目中,显著降低了部署门槛并提升了训练效率。

2. 超越 DPO:IPO、KTO 与 SimPO 的演进

尽管 DPO 表现出色,但在面对低质量或稀疏数据时仍可能出现过拟合问题。为此,一系列改进算法应运而生:

IPO(Identity Preference Optimization):
通过对目标函数增加正则项,缓解了 DPO 在某些情况下忽略 KL 约束而导致输出退化的问题,增强了稳定性。

KTO(Kahneman-Tversky Optimization):
突破了传统成对数据依赖,允许仅使用单边反馈信号(如“点赞”或“点踩”)进行训练。这意味着不再需要严格配对的优劣样本,大幅降低数据采集成本。

SimPO(Simple Preference Optimization):
作为2024年的新兴方案,SimPO 完全移除了参考模型,转而在长度归一化的对数概率上应用 margin-based 损失函数,在减少显存占用的同时实现了性能提升。

二、System 2 推理:开启“慢思考”模式

这是目前最具前景的研究方向之一,也被认为是 OpenAI o1 系列模型背后的核心理念。传统 LLM 更像是“System 1”思维者——快速、直觉化、易出错;而借助强化学习,研究人员正尝试训练具备“System 2”能力的模型——能够进行逻辑推理、长期规划和逐步验证。

1. 过程奖励模型(Process Reward Models, PRM)

传统 RLHF 多采用 ORM(Outcome Reward Model),即只在任务结束时根据最终结果评分。这种方式适用于诗歌生成等结果导向型任务,但在数学证明或代码生成等复杂场景下显得力不从心——因为错误可能出现在中间步骤,而最终结果却恰好正确。

[此处为图片2]

前沿进展:

  • 稠密监督(Dense Supervision):PRM 对推理链中的每一个步骤单独打分,提供细粒度反馈。
  • 搜索策略增强:结合 Beam Search 或 Tree Search 技术,模型可在生成过程中主动探索多种推理路径,并依据过程奖励选择最优路线。

此类方法使得模型不仅能产出正确答案,更能展示出可解释、可追溯的推理过程,极大提升了可信度与可控性。

三、合成数据驱动的自我进化:后训练扩展的新路径

随着高质量人类标注数据逐渐见顶,研究者开始转向利用模型自身生成的数据进行持续优化。这种“自我蒸馏”或“合成数据循环”机制构成了后训练扩展的重要支柱。

1. 后训练扩展定律(Post-Training Scaling Laws)

最新研究表明,在完成初始预训练之后,模型性能仍可通过特定形式的后训练持续提升,且存在某种可量化的扩展规律。这表明:即使不增加参数规模,只要优化训练策略与数据质量,依然可以获得显著增益。

2. 自我改进闭环系统

典型流程包括:

  1. 基础模型生成大量候选回答;
  2. 使用高置信度判别器或规则引擎筛选优质样本;
  3. 将筛选后的合成数据用于新一轮微调;
  4. 迭代更新模型,形成良性循环。

代表性工作如 Google 的 Self-Taught Reasoner(STaR)和 Meta 的 Iterative Backtranslation,均展示了模型通过“自学”不断提升推理能力的可能性。

这类方法不仅缓解了对外部标注数据的依赖,也为未来构建自主进化的智能体提供了理论支持和技术路径。

在推理过程中,模型能够生成多步思维路径,并借助 PRM(过程奖励模型)对错误路径进行剪枝,保留得分较高的推理路线。这一机制类似于 AlphaGo 在下棋时的“思考”方式——评估多种可能的走法并选择最优解。

[此处为图片1]

Math-Shepherd 与 Q-Star

相关研究显示,在复杂逻辑任务中,采用 PRM 进行训练的模型表现显著优于仅依赖结果反馈的模型。这表明关注推理过程本身,比单纯看重最终答案更能提升模型的深层理解能力。

搜索与自我改进:突破扩展瓶颈的关键

结合搜索算法的强化学习(RL),正成为打破传统 Scaling Law 局限的核心方向。

STaR(Self-Taught Reasoner)

该方法鼓励模型生成带有推理链(Chain-of-Thought)的回答。若最终答案正确,则将整个推理过程作为高质量样本加入训练集,用于后续微调。通过这种方式,模型不断从自身成功的思考路径中学习,实现自我增强。

Quiet-STaR(斯坦福前沿研究)

这一创新技术让模型在生成每个 token 前,先在内部进行多步隐式推理(Inner Monologue),预测未来文本内容。这种“静默思考”机制无需增加输出长度,即可显著提升推理质量,使模型更擅长处理复杂任务。

后训练扩展定律:强化学习的新红利期

业界逐渐达成共识:预训练阶段的数据边际效益正在减弱,而强化学习带来的提升潜力才刚刚显现。

用计算换取数据(Compute for Data)

当前趋势已不再局限于搜集更多人类文本数据,而是转而利用强大的现有模型,通过拒绝采样(Rejection Sampling)或蒙特卡洛树搜索(MCTS)生成高精度的合成数据(Synthetic Data)。这些数据随后被用于 RL 训练,从而形成高质量闭环学习系统。

测试时计算(Test-time Compute)

OpenAI o1 的发布揭示了一个重要规律:推理阶段投入的额外计算资源可以直接转化为智能表现的提升。经过 RL 训练后,模型学会如何有效利用更长的推理时间,在面对难题时自动展开深层次思维链,进行自我反思、回溯和纠错。此时,RL 的目标也发生转变——不再只是“对齐人类偏好”,而是追求“最大化推理正确性”。

迈向 RLAIF:由 AI 提供反馈的强化学习

传统的 RLHF(基于人类反馈的强化学习)存在明显局限:成本高昂、难以规模化,且在超高难度任务(如高级数学证明或复杂代码架构设计)上,人类往往无法提供准确评判。

Constitutional AI(宪法 AI)

这是 Anthropic 提出的技术路径。模型依据一组预设原则(即“宪法”)对自身输出进行批判与修正,自主生成偏好数据,从而摆脱对外部人工标注的依赖。

Weak-to-Strong Generalization

来自 OpenAI 的研究探索了弱模型监督强模型的可能性,或通过强模型自我博弈(Self-Play)来生成训练信号。未来的强化学习将更多体现为模型之间的“左右互搏”,类似 AlphaZero 的训练范式,逐步脱离人类数据约束,有望突破人类智能的认知上限。

结语:强化学习的新使命

如今的 LLM 与强化学习结合,早已超越“让语言模型说话更得体”的初级目标。它正在成为通往通用人工智能(AGI)的核心引擎。

通过引入 PRM(关注推理过程)、Search(集成搜索算法)以及 Self-Play(自我博弈机制),我们正逐步构建具备自主规划、动态纠错、并能应对全新挑战的智能体。

预计到 2025 年,大模型领域的竞争焦点将集中于强化学习算法的先进性与合成数据策略的有效性之上。

[此处为图片2]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:System STEM 最前沿 Sys LLM

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-2-7 18:28