发帖

楼主: Sissi1216

532 0

[其他] 大模型Post-training的范式已经发生改变...... [推广有奖]

0关注
0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 20 点
帖子: 1
精华: 0
在线时间: 0 小时
注册时间: 2018-1-16
最后登录: 2018-1-16

楼主

Sissi1216 发表于 2025-12-2 17:22:28 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

作者 | Yongqi Li

最近在准备实习面试时，一位面试官向我提出了这样一个问题：“你认为 deepseek R1 为什么能够取得成功？”当时我的回答主要集中在以下两个方面：

基于结果的奖励机制有效缓解了 Reward Hacking 问题

传统的后训练方法通常依赖 reward model 进行反馈优化，在训练后期常常会出现 reward 值上升但实际性能下降的现象，也就是所谓的 reward hacking。而 R1/o1 在数学推理（math）和代码生成（coding）这类具备明确验证标准的任务上，采用了基于结果（outcome-based）的强化学习（RL）扩展策略，有效规避了这一问题。

这种机制不仅提升了 token 级别搜索的自由度，更重要的是激发了大模型自身潜在的自我反思能力，从而显著增强了其推理表现。尤其是对于基础能力较强的大模型而言，预训练阶段的数据质量和广度尤为重要，这为后续的 RL 扩展提供了坚实的基础。

数学与编程能力具有强迁移性

尽管我们面对的实际任务远不止数学计算或编程，但一个关键发现是：在 math 和 coding 上获得的能力可以很好地迁移到其他类型的任务中。这一点在近期的研究中得到了支持（参考文献：arXiv:2507.00432；Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning）。

这种跨任务的泛化能力正是 R1 成功背后的“巧妙之处”——通过专注于可验证任务进行深度训练，反而间接提升了模型在广泛场景下的综合表现。

我的上述观点在 QwQ-32B 的技术博客中得到了进一步印证，这也促使我写下这篇文章来系统梳理当前对 post-training 范式演进的理解。

标题：QwQ-32B: Embracing the Power of Reinforcement Learning

链接：https://qwenlm.github.io/blog/qwq-32b/

虽然该博客对强化学习部分的描述较为简略，但结合此前 R1 的技术报告以及社区对 o1 的分析推测，我更加确信一个判断：大模型的后训练范式可能正在经历一次根本性的转变。

从 SFT+RLHF 到 RL Scaling + RL Alignment 的范式迁移

自 2022 年底 GPT-3.5 发布以来，SFT（监督微调）+ RLHF（基于人类反馈的强化学习）这一两阶段后训练流程已成为主流。从收敛角度看，SFT 为 RLHF 提供了一个良好的初始化起点，缩小了策略搜索空间；从功能角度看，SFT 让模型初步具备遵循指令的能力，使 RLHF 可以在此基础上进一步优化复杂行为。

无论是工业界开源的 Llama、Qwen 系列，还是学术界的各类研究，长期以来都围绕这一框架展开，讨论幻觉控制、安全性、对齐等问题。

然而，随着类 o1 的大型推理模型兴起，新的训练范式正逐渐浮现——即“RL Scaling + RL Alignment”模式（术语尚不统一，含义大致如此）。

RL Scaling 阶段：利用 math、code 等可验证任务进行大规模强化学习扩展。此阶段无需关注输出是否可读或是否符合人类偏好，甚至允许中间产物不可理解，目标是极致提升模型的推理与自我修正能力。
RL Alignment 阶段：在此基础上进行轻量级调整，使模型在尽可能保留强大推理能力的前提下，恢复指令跟随、语言通顺性等人类对齐特性。

得益于 math/code 训练带来的广泛能力迁移，即使非验证类任务也能从中受益。更重要的是，由于 reward 设计基于最终结果而非过程，reward hacking 的风险被大幅降低，使得模型推理能力可以在 RL 过程中持续提升而不受干扰。

新范式的潜力与挑战

目前尚不确定这种新范式是否会成为主流趋势，未来也可能出现回潮，重新肯定 SFT+RLHF 的价值。但不可否认的是，它为业界提供了一条全新的技术路径，打破了过去对传统流程的依赖。

本质上，这种变化是为了让 post-training 阶段也能通过增加算力投入来持续提升模型性能。相比之下，SFT+RLHF 更依赖高质量数据而非算力，难以通过简单堆资源实现突破。而在 RL Scaling 框架下，算力的作用被前所未有地放大。

不过，这对学术界构成了巨大挑战：RL Scaling 对计算资源的需求极高，几乎超出了大多数研究机构的能力范围。希望未来能有先行者探索出可行的方法论，为后续研究打开空间。

安全方面的隐忧

值得注意的是，新范式也带来了更深层次的安全顾虑。RL Scaling 所激发的推理能力极为强大，可能催生出人类难以察觉的有害推理链条。相比 SFT 阶段依赖人类撰写数据，当前流程更多依赖模型自主演化，潜在风险更为隐蔽。

此外，从现有技术报告来看，人类标注数据在整个训练中的占比持续下降，系统设计越来越依赖模型自身的闭环迭代。在这种背景下，仅靠最后的 RL Alignment 是否足以确保安全性？这是一个亟待深入探讨的问题。

尽管当前采用RL Scaling与RL Alignment的两阶段范式已展现出良好的泛化能力，并在众多非代码、非数学类任务中带来了显著性能提升，但其应用边界仍存在明显局限。尤其值得注意的是，从可验证问题（verifiable problems）向“软性”问题（soft problems）的泛化仍是尚未完全突破的难点。

以R1/o1类模型为例，虽然它们在推理能力上表现突出，但在实际使用过程中，许多用户仍然更倾向于选择如gpt-4o这类不具备强推理架构的模型。原因在于后者在理解用户意图、遵循复杂指令以及输出内容的自然可读性方面更具优势。这说明，即便模型具备强大的逻辑推导能力，若无法高效支持日常沟通或实际工作流程，其应用价值仍将受到限制。

因此，如何在保持推理能力的同时，提升模型在开放域任务中的交互质量与实用性，是一个值得深入探讨的方向。这也引出了一系列关键问题：

如何利用那些没有明确正确答案的数据进行RL Scaling？
在缺乏类似math或code这种具备确定性反馈的数据集时，应如何构建有效的训练信号？
RL Scaling过程中，如何合理设计数据的难度配比？

关于难度设置的问题尤为关键：任务过难可能导致模型始终无法采样到正确的推理路径，导致reward长期为0；而任务过于简单，则会使reward持续为1，模型难以获得有效学习信号，进而无法实现能力提升。

此外，在RL Alignment阶段，还需面对推理能力与安全表现之间的平衡挑战。如何在增强模型思考深度的同时，确保其输出符合伦理规范、避免有害内容生成，是构建可靠系统不可忽视的一环。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Training Train post ning Aini

[其他] 大模型Post-training的范式已经发生改变...... [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

基于结果的奖励机制有效缓解了 Reward Hacking 问题

数学与编程能力具有强迁移性

标题：QwQ-32B: Embracing the Power of Reinforcement Learning

从 SFT+RLHF 到 RL Scaling + RL Alignment 的范式迁移

新范式的潜力与挑战

安全方面的隐忧

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[其他] 大模型Post-training的范式已经发生改变...... [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

基于结果的奖励机制有效缓解了 Reward Hacking 问题

数学与编程能力具有强迁移性

标题：QwQ-32B: Embracing the Power of Reinforcement Learning

从 SFT+RLHF 到 RL Scaling + RL Alignment 的范式迁移

新范式的潜力与挑战

安全方面的隐忧

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群