作者 | Yongqi Li
最近在准备实习面试时,一位面试官向我提出了这样一个问题:“你认为 deepseek R1 为什么能够取得成功?”当时我的回答主要集中在以下两个方面:
基于结果的奖励机制有效缓解了 Reward Hacking 问题
传统的后训练方法通常依赖 reward model 进行反馈优化,在训练后期常常会出现 reward 值上升但实际性能下降的现象,也就是所谓的 reward hacking。而 R1/o1 在数学推理(math)和代码生成(coding)这类具备明确验证标准的任务上,采用了基于结果(outcome-based)的强化学习(RL)扩展策略,有效规避了这一问题。
这种机制不仅提升了 token 级别搜索的自由度,更重要的是激发了大模型自身潜在的自我反思能力,从而显著增强了其推理表现。尤其是对于基础能力较强的大模型而言,预训练阶段的数据质量和广度尤为重要,这为后续的 RL 扩展提供了坚实的基础。
数学与编程能力具有强迁移性
尽管我们面对的实际任务远不止数学计算或编程,但一个关键发现是:在 math 和 coding 上获得的能力可以很好地迁移到其他类型的任务中。这一点在近期的研究中得到了支持(参考文献:arXiv:2507.00432;Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning)。
这种跨任务的泛化能力正是 R1 成功背后的“巧妙之处”——通过专注于可验证任务进行深度训练,反而间接提升了模型在广泛场景下的综合表现。
我的上述观点在 QwQ-32B 的技术博客中得到了进一步印证,这也促使我写下这篇文章来系统梳理当前对 post-training 范式演进的理解。
标题:QwQ-32B: Embracing the Power of Reinforcement Learning
链接:https://qwenlm.github.io/blog/qwq-32b/
虽然该博客对强化学习部分的描述较为简略,但结合此前 R1 的技术报告以及社区对 o1 的分析推测,我更加确信一个判断:大模型的后训练范式可能正在经历一次根本性的转变。
从 SFT+RLHF 到 RL Scaling + RL Alignment 的范式迁移
自 2022 年底 GPT-3.5 发布以来,SFT(监督微调)+ RLHF(基于人类反馈的强化学习)这一两阶段后训练流程已成为主流。从收敛角度看,SFT 为 RLHF 提供了一个良好的初始化起点,缩小了策略搜索空间;从功能角度看,SFT 让模型初步具备遵循指令的能力,使 RLHF 可以在此基础上进一步优化复杂行为。
无论是工业界开源的 Llama、Qwen 系列,还是学术界的各类研究,长期以来都围绕这一框架展开,讨论幻觉控制、安全性、对齐等问题。
然而,随着类 o1 的大型推理模型兴起,新的训练范式正逐渐浮现——即“RL Scaling + RL Alignment”模式(术语尚不统一,含义大致如此)。
- RL Scaling 阶段:利用 math、code 等可验证任务进行大规模强化学习扩展。此阶段无需关注输出是否可读或是否符合人类偏好,甚至允许中间产物不可理解,目标是极致提升模型的推理与自我修正能力。
- RL Alignment 阶段:在此基础上进行轻量级调整,使模型在尽可能保留强大推理能力的前提下,恢复指令跟随、语言通顺性等人类对齐特性。
得益于 math/code 训练带来的广泛能力迁移,即使非验证类任务也能从中受益。更重要的是,由于 reward 设计基于最终结果而非过程,reward hacking 的风险被大幅降低,使得模型推理能力可以在 RL 过程中持续提升而不受干扰。
新范式的潜力与挑战
目前尚不确定这种新范式是否会成为主流趋势,未来也可能出现回潮,重新肯定 SFT+RLHF 的价值。但不可否认的是,它为业界提供了一条全新的技术路径,打破了过去对传统流程的依赖。
本质上,这种变化是为了让 post-training 阶段也能通过增加算力投入来持续提升模型性能。相比之下,SFT+RLHF 更依赖高质量数据而非算力,难以通过简单堆资源实现突破。而在 RL Scaling 框架下,算力的作用被前所未有地放大。
不过,这对学术界构成了巨大挑战:RL Scaling 对计算资源的需求极高,几乎超出了大多数研究机构的能力范围。希望未来能有先行者探索出可行的方法论,为后续研究打开空间。
安全方面的隐忧
值得注意的是,新范式也带来了更深层次的安全顾虑。RL Scaling 所激发的推理能力极为强大,可能催生出人类难以察觉的有害推理链条。相比 SFT 阶段依赖人类撰写数据,当前流程更多依赖模型自主演化,潜在风险更为隐蔽。
此外,从现有技术报告来看,人类标注数据在整个训练中的占比持续下降,系统设计越来越依赖模型自身的闭环迭代。在这种背景下,仅靠最后的 RL Alignment 是否足以确保安全性?这是一个亟待深入探讨的问题。
尽管当前采用RL Scaling与RL Alignment的两阶段范式已展现出良好的泛化能力,并在众多非代码、非数学类任务中带来了显著性能提升,但其应用边界仍存在明显局限。尤其值得注意的是,从可验证问题(verifiable problems)向“软性”问题(soft problems)的泛化仍是尚未完全突破的难点。
以R1/o1类模型为例,虽然它们在推理能力上表现突出,但在实际使用过程中,许多用户仍然更倾向于选择如gpt-4o这类不具备强推理架构的模型。原因在于后者在理解用户意图、遵循复杂指令以及输出内容的自然可读性方面更具优势。这说明,即便模型具备强大的逻辑推导能力,若无法高效支持日常沟通或实际工作流程,其应用价值仍将受到限制。
因此,如何在保持推理能力的同时,提升模型在开放域任务中的交互质量与实用性,是一个值得深入探讨的方向。这也引出了一系列关键问题:
- 如何利用那些没有明确正确答案的数据进行RL Scaling?
- 在缺乏类似math或code这种具备确定性反馈的数据集时,应如何构建有效的训练信号?
- RL Scaling过程中,如何合理设计数据的难度配比?
关于难度设置的问题尤为关键:任务过难可能导致模型始终无法采样到正确的推理路径,导致reward长期为0;而任务过于简单,则会使reward持续为1,模型难以获得有效学习信号,进而无法实现能力提升。
此外,在RL Alignment阶段,还需面对推理能力与安全表现之间的平衡挑战。如何在增强模型思考深度的同时,确保其输出符合伦理规范、避免有害内容生成,是构建可靠系统不可忽视的一环。



雷达卡


京公网安备 11010802022788号







