楼主: Sissi1216
344 0

[其他] 大模型Post-training的范式已经发生改变...... [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-1-16
最后登录
2018-1-16

楼主
Sissi1216 发表于 2025-12-2 17:22:28 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

作者 | Yongqi Li

最近在准备实习面试时,一位面试官向我提出了这样一个问题:“你认为 deepseek R1 为什么能够取得成功?”当时我的回答主要集中在以下两个方面:

基于结果的奖励机制有效缓解了 Reward Hacking 问题

传统的后训练方法通常依赖 reward model 进行反馈优化,在训练后期常常会出现 reward 值上升但实际性能下降的现象,也就是所谓的 reward hacking。而 R1/o1 在数学推理(math)和代码生成(coding)这类具备明确验证标准的任务上,采用了基于结果(outcome-based)的强化学习(RL)扩展策略,有效规避了这一问题。

这种机制不仅提升了 token 级别搜索的自由度,更重要的是激发了大模型自身潜在的自我反思能力,从而显著增强了其推理表现。尤其是对于基础能力较强的大模型而言,预训练阶段的数据质量和广度尤为重要,这为后续的 RL 扩展提供了坚实的基础。

数学与编程能力具有强迁移性

尽管我们面对的实际任务远不止数学计算或编程,但一个关键发现是:在 math 和 coding 上获得的能力可以很好地迁移到其他类型的任务中。这一点在近期的研究中得到了支持(参考文献:arXiv:2507.00432;Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning)。

这种跨任务的泛化能力正是 R1 成功背后的“巧妙之处”——通过专注于可验证任务进行深度训练,反而间接提升了模型在广泛场景下的综合表现。

我的上述观点在 QwQ-32B 的技术博客中得到了进一步印证,这也促使我写下这篇文章来系统梳理当前对 post-training 范式演进的理解。

标题:QwQ-32B: Embracing the Power of Reinforcement Learning

链接:https://qwenlm.github.io/blog/qwq-32b/

虽然该博客对强化学习部分的描述较为简略,但结合此前 R1 的技术报告以及社区对 o1 的分析推测,我更加确信一个判断:大模型的后训练范式可能正在经历一次根本性的转变。

从 SFT+RLHF 到 RL Scaling + RL Alignment 的范式迁移

自 2022 年底 GPT-3.5 发布以来,SFT(监督微调)+ RLHF(基于人类反馈的强化学习)这一两阶段后训练流程已成为主流。从收敛角度看,SFT 为 RLHF 提供了一个良好的初始化起点,缩小了策略搜索空间;从功能角度看,SFT 让模型初步具备遵循指令的能力,使 RLHF 可以在此基础上进一步优化复杂行为。

无论是工业界开源的 Llama、Qwen 系列,还是学术界的各类研究,长期以来都围绕这一框架展开,讨论幻觉控制、安全性、对齐等问题。

然而,随着类 o1 的大型推理模型兴起,新的训练范式正逐渐浮现——即“RL Scaling + RL Alignment”模式(术语尚不统一,含义大致如此)。

  • RL Scaling 阶段:利用 math、code 等可验证任务进行大规模强化学习扩展。此阶段无需关注输出是否可读或是否符合人类偏好,甚至允许中间产物不可理解,目标是极致提升模型的推理与自我修正能力。
  • RL Alignment 阶段:在此基础上进行轻量级调整,使模型在尽可能保留强大推理能力的前提下,恢复指令跟随、语言通顺性等人类对齐特性。

得益于 math/code 训练带来的广泛能力迁移,即使非验证类任务也能从中受益。更重要的是,由于 reward 设计基于最终结果而非过程,reward hacking 的风险被大幅降低,使得模型推理能力可以在 RL 过程中持续提升而不受干扰。

新范式的潜力与挑战

目前尚不确定这种新范式是否会成为主流趋势,未来也可能出现回潮,重新肯定 SFT+RLHF 的价值。但不可否认的是,它为业界提供了一条全新的技术路径,打破了过去对传统流程的依赖。

本质上,这种变化是为了让 post-training 阶段也能通过增加算力投入来持续提升模型性能。相比之下,SFT+RLHF 更依赖高质量数据而非算力,难以通过简单堆资源实现突破。而在 RL Scaling 框架下,算力的作用被前所未有地放大。

不过,这对学术界构成了巨大挑战:RL Scaling 对计算资源的需求极高,几乎超出了大多数研究机构的能力范围。希望未来能有先行者探索出可行的方法论,为后续研究打开空间。

安全方面的隐忧

值得注意的是,新范式也带来了更深层次的安全顾虑。RL Scaling 所激发的推理能力极为强大,可能催生出人类难以察觉的有害推理链条。相比 SFT 阶段依赖人类撰写数据,当前流程更多依赖模型自主演化,潜在风险更为隐蔽。

此外,从现有技术报告来看,人类标注数据在整个训练中的占比持续下降,系统设计越来越依赖模型自身的闭环迭代。在这种背景下,仅靠最后的 RL Alignment 是否足以确保安全性?这是一个亟待深入探讨的问题。

尽管当前采用RL Scaling与RL Alignment的两阶段范式已展现出良好的泛化能力,并在众多非代码、非数学类任务中带来了显著性能提升,但其应用边界仍存在明显局限。尤其值得注意的是,从可验证问题(verifiable problems)向“软性”问题(soft problems)的泛化仍是尚未完全突破的难点。

以R1/o1类模型为例,虽然它们在推理能力上表现突出,但在实际使用过程中,许多用户仍然更倾向于选择如gpt-4o这类不具备强推理架构的模型。原因在于后者在理解用户意图、遵循复杂指令以及输出内容的自然可读性方面更具优势。这说明,即便模型具备强大的逻辑推导能力,若无法高效支持日常沟通或实际工作流程,其应用价值仍将受到限制。

因此,如何在保持推理能力的同时,提升模型在开放域任务中的交互质量与实用性,是一个值得深入探讨的方向。这也引出了一系列关键问题:

  • 如何利用那些没有明确正确答案的数据进行RL Scaling?
  • 在缺乏类似math或code这种具备确定性反馈的数据集时,应如何构建有效的训练信号?
  • RL Scaling过程中,如何合理设计数据的难度配比?

关于难度设置的问题尤为关键:任务过难可能导致模型始终无法采样到正确的推理路径,导致reward长期为0;而任务过于简单,则会使reward持续为1,模型难以获得有效学习信号,进而无法实现能力提升。

此外,在RL Alignment阶段,还需面对推理能力与安全表现之间的平衡挑战。如何在增强模型思考深度的同时,确保其输出符合伦理规范、避免有害内容生成,是构建可靠系统不可忽视的一环。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Training Train post ning Aini

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-5 12:50