2.1 DeepSeek V3.2
自诞生以来,Transformer架构一直是大型语言模型(LLM)发展中不可动摇的核心动力。其主要革新——自我关注机制,使模型具备了捕捉大量数据序列中远距离依赖和细微上下文差别的出色能力。然而,这种强大的功能也带来了日益增加的成本:传统自我关注机制的计算和内存复杂度达到O(L)(L为输入序列长度)。这种二次增长特性意味着,每当上下文长度翻一番时,所需的计算资源就会增加四倍,这对处理现代AI应用所需的不断扩大的信息库(如长文档分析、扩展对话、大规模代码库解析)构成了巨大的障碍。这种“二次复杂度的束缚”已经成为大型语言模型进步的主要障碍,使得对架构效率的追求不仅是学术探讨,更是推动领域持续发展并保持经济效益的关键。
针对这一基本障碍,各种稀疏关注技术应运而生。其核心理念是通过仅计算经过策略挑选的查询-键交互子集,来模仿完整关注矩阵的输出效果。这种方法旨在打破二次扩展规律,将复杂度降低至接近线性水平(如O(Lk)或O(LlogL),其中k为固定的注意力令牌数)。本报告将深入探讨该领域的重大新进展:DeepSeek-V3.2-Exp。这款实验模型引入了一种称为DeepSeek稀疏关注(DSA)的新细粒度稀疏关注机制。
研究表明,DeepSeek-V3.2-Exp代表了一个重要的工程实践突破。它不是通过消除二次扩展的理论捷径,而是采取软硬件结合的混合策略,通过精细管理和最小化计算负担来实现长上下文效率的显著提升。该模型在保持与前一代高性能模型DeepSeek-V3.1-Terminus几乎相同性能的同时,大幅降低了推理成本。更值得注意的是,作为“实验版”发布的决定,显示了顶级AI实验室在架构验证和部署策略上的重要转变——通过开放社区构建大规模试验平台,为未来的路径规避风险。本报告将解析DSA架构原理,分析其训练方法,客观评估其性能表现和经济价值,并将其置于注意力机制的发展脉络中审视,以全面理解其对大规模AI发展的深远影响。
2.2 DeepSeek稀疏关注(DSA)
DeepSeek-V3.2-Exp与前代模型最核心的架构差异在于引入了DeepSeek稀疏关注(DSA)机制。这项创新并不是对整个关注模块的完全替代,而是一个旨在与现有模型架构协同工作的智能过滤层。
DSA的设计原则是以实际效率和硬件性能为主导,通过一个包含两个部分的系统,在主要的关注计算之前,对关注空间进行智能修剪。这两个关键部分分别是:
- 闪电索引器 (Lightning Indexer):一个高效的组件,能够以极快的速度判断当前处理的Token中,序列中哪些历史Token最为重要。
- 细粒度Token选择机制 (Fine-grained Token Selection Mechanism):从闪电索引器筛选出的候选Token中,精确选择最相关的Top-k个Token参与最终的关注计算。
通过这种协同设计,DSA巧妙地管理和最小化了二次复杂度的问题,其目标是在保持模型强大性能的同时,实现长上下文处理效率的重大飞跃。
2.3 闪电索引器与细粒度Token选择机制
DeepSeek稀疏关注(DSA)的原型由闪电索引器(Lightning Indexer)和细粒度Token选择机制(Fine-grained Token Selection Mechanism)这两个主要组件协同工作,其核心思想是“先筛选,后计算”,从而将密集的关注计算问题转化为稀疏计算问题。
?? 闪电索引器 (Lightning Indexer)
这是一个基于内容的快速预关注过滤器。对于序列中的每个查询Token(Query Token),索引器的任务是计算其与上下文中每个前置Token的相关度得分(即“索引分数”)。
其关键是,这种稀疏模式是动态自适应的。它根据具体输入内容决定哪些Token是重要的,这与依赖固定模式(如滑动窗口或跨度关注)的僵硬稀疏方法有本质的区别,后者的关注模式是预先设定且与输入内容无关的。
为了实现极高的速度,闪电索引器采用了轻量级设计,例如使用非常小的键缓存(据资料提及,每个Token仅128维),并能够在DeepSeek自研的DeepGEMM算子上以FP8精度运行,从而显著加快后续的关注计算。
?? 细粒度Token选择
该机制基于闪电索引器的输出工作。对于给定的查询,Top-k选择器将根据计算出的索引分数,仅筛选出得分最高的k个Token所对应的键值对。
这是实现稀疏化的关键步骤。经过此步骤,所有其他未被选中的键值对在后续的核心关注计算中都将被忽略。
根据论文,在稀疏训练阶段,模型为每个查询Token选取 k=2048 个键值Token。这使得核心注意力计算的实际序列长度从整个上下文长度L大幅减少至一个较小的固定值k,从而将注意力计算的复杂度从O(L2)有效降低至O(L·k)。
最终的注意力输出将仅基于这个稀疏选出的键值集合,按常规方法计算得出。
2.4 数学原理与工程实现
闪电索引器的计算核心通过一个精心设计的数学公式实现最高效率。查询词元 ht 与历史词元 hs? 间的索引评分 It,s? 计算公式如下:
[此处为图片1]
该公式的每个部分都体现了对硬件吞吐量的深入优化:
- 激活函数选择:特意选用ReLU而非GELU或SwiGLU等更为复杂的函数,纯粹基于“吞吐量考虑”
- 精度优化:索引器全程采用FP8精度运行,充分利用现代GPU的低精度计算单元,显著减少内存占用与计算成本
复杂度特性的深入分析
尽管核心注意力复杂度成功从 O(L2) 降至 O(Lk),但需要注意的是,闪电索引器本身仍保持 O(L2) 的二次复杂度——这是理解DSA设计理念的关键:
- 工程折中艺术:通过将二次复杂度隔离至经过高度优化的轻量级模块(少量注意力头数+简易ReLU+FP8精度),使其常数因子 c1 被压缩至极低水平
- 混合复杂度模型:系统总成本遵循 Cost≈O(c1L2)+O(c2Lk) 的混合模式,其中 c1<c2
- 现实意义:在128K上下文长度等实际场景中,索引器的计算成本相较于被取代的稠密注意力几乎可以忽略不计
这种设计本质上并不是从理论上消除二次缩放,而是通过工程隔离策略实现的实际突破:将不可避免的全局搜索问题限制在特化模块中高效执行。然而,这也预示着当上下文长度扩展至百万词元级别时,无论常数因子多小,O(c1L2) 项最终将成为新的系统瓶颈——这为下一代长上下文模型的架构发展指明了方向。
2.5 架构协同:在多头潜在注意力(MLA)中实现DSA
DeepSeek稀疏注意力(DSA)并不是一个从零开始设计的新架构,而是基于DeepSeek-V2和V3.1所使用的多头潜在注意力(MLA)框架进行的增强改造。这一设计决策明确是为了“考虑到可以从DeepSeek-V3.1-Terminus进行持续训练”,体现了一种战略选择:优先考虑迭代改进,而非昂贵的重新构建。
基于MQA模式的高效实现
DSA的具体实现基于MLA的多查询注意力(MQA)模式。
- 标准多头注意力(MHA):每个注意力头都有自己独立的查询(Query)、键(Key)和值(Value)投影矩阵。
- 多查询注意力(MQA):作为一种注重效率的变体,所有查询头共享同一组公共的键头和值头。
- 多头潜在注意力(MLA):这是DeepSeek之前的创新,它通过低秩分解将键和值投影压缩到一个更小的“潜在”向量中,在计算时再解压为独特的键头和值头,从而在MHA的质量和MQA的效率之间达到平衡。
通过在MLA的MQA模式中实现DSA,每个潜在向量(代表键值条目)在给定词元的所有查询头之间是共享的。这种共享对于硬件内核层面的计算效率至关重要,因为它最大限度地减少了内存带宽——即数据从高容量GPU内存(HBM)到快速片上处理核心(SRAM)的移动,而这正是现代LLM推理中的常见性能瓶颈。
战略与经济效益
这种将新架构特性“嫁接”到强大现有模型上的“持续训练”方法,具有深远的战略和经济意义。
- 从头开始训练一个最先进的基座模型成本极高,动辄数千万美元。
- 通过设计能够“修补”到现有模型检查点上的创新,研究实验室能够以更快的速度和更低的成本进行迭代并验证新想法。
3. DeepSeek V3.2 模型训练与优化
DeepSeek-V3.2-Exp的诞生并非从零开始训练新模型,而是一个对现有高性能稠密模型进行多阶段精细调整,使其转变为稀疏架构的严谨过程。此过程始于一个已能处理128K上下文长度的DeepSeek-V3.1-Terminus模型检查点,包括精心设计的持续预训练方案以及一个特意保持与 predecessor 模型完全一致的后训练流程,以确保评估的公正性和可控性。
具体而言,其训练过程主要包含两个核心阶段:
- 持续预训练:此阶段首先进行密集预热,冻结主模型参数,仅训练轻量化的Lightning索引器,使其输出与原始注意力分布对齐;随后进入稀疏训练,引入细粒度Token选择机制,并优化所有模型参数以适应DSA的稀疏模式。
- 后训练:此阶段完全沿用DeepSeek-V3.1-Terminus的后训练流程、算法和数据配置,通过专家蒸馏与混合强化学习等技术进一步优化模型,确保在引入稀疏注意力的同时,模型性能与 predecessor 保持严格可比。
3.1 从稠密到稀疏:持续预训练方案解析
DeepSeek-V3.2-Exp对DeepSeek稀疏注意力(DSA)的适配,通过两个独立的预训练阶段完成。这两个阶段均采用了与DeepSeek-V3.1-Terminus进行128K上下文扩展训练时相同的数据分布。
阶段一:稠密预热
这是一个短暂但至关重要的初始化阶段。
核心目标:在激活完整的稀疏机制之前,为新引入的Lightning Indexer注入有意义的权重,使其具备初步的令牌筛选能力。
运行机制:此阶段模型仍运行标准稠密注意力,并冻结主模型的所有参数,仅训练Lightning Indexer的参数。
训练技巧:通过KL散度损失函数,让索引器学习模仿原始成熟稠密模型的注意力模式,即将稠密模型中关于“哪些令牌重要”的知识蒸馏到轻量级索引器中。
高效性:此预热阶段异常短暂,仅持续1000个训练步,消耗21亿令牌,凸显了其作为快速高效初始化步骤的角色。
阶段二:稀疏训练
在索引器初始化后,模型进入核心的稀疏训练阶段。
机制激活:在此阶段,细粒度的Top-k令牌选择机制被激活,并且所有模型参数(包括主模型和索引器)同时解冻并进行优化。
关键技术:采用分离的计算图进行优化:
索引器的训练信号继续且仅来自KL散度损失,确保其选择与主模型在已选令牌集上的注意力分布保持一致。
主模型则仅基于标准的语言建模损失进行优化。
训练规模:此阶段明显更长且数据更密集,运行了15,000个训练步,总计消耗9437亿令牌,反映了整个模型适应新稀疏范式所需的大量工作。
3.2 精炼专项能力:基于专家蒸馏的后训练
在通过持续预训练使模型适应稀疏架构后,DeepSeek团队进行了后训练阶段以打造最终的指令微调版DeepSeek-V3.2-Exp。为了保持实验的严谨性并精准评估DSA架构的影响,整个后训练流程——包括算法与数据——均与用于训练DeepSeek-V3.1-Terminus的设置保持一致。
此过程始于专家蒸馏。与在混合任务上训练单一通用模型不同,DeepSeek-AI首先从同一个预训练基础检查点出发,培育了一系列专项模型。每个模型都通过大规模强化学习进行微调,以在特定领域达到卓越水平,这些领域涵盖了数学、竞技编程、逻辑推理、智能体编码、智能体搜索,以及通用的写作和问答任务。
待这些专家模型训练完成后,它们被用于生成海量的、高质量的领域特定数据。这些凝聚了专家模型精髓的蒸馏数据,随后被用于训练最终的通用模型。这种方法是一种强大的知识整合手段,它使得最终模型能够获得接近各个专项专家的性能水平,而无需在其自身的训练过程中同时精通所有领域。
此外,由这些专家生成的数据经过了精心设计,同时包含了长链思维推理和直接简洁回答两种模式,为最终训练阶段提供了一个丰富而多样的数据集。
3.3 对齐人类意图:混合强化学习与GRPO的作用
模型打造的最后一步是混合强化学习训练,其核心采用了组相对策略优化(GRPO)算法。与先前DeepSeek模型采用多阶段强化学习不同,此阶段将推理、智能体操作和通用人类对齐训练融合为一个统一的强化学习阶段。
这种集成方法旨在有效平衡模型各项能力,同时关键性地规避了“灾难性遗忘”问题——即模型在某个任务上微调后,会丧失其他任务上的能力。
此阶段采用的奖励机制设计精妙:
面向客观任务:针对推理、智能体工具使用等任务,模型依据规则获得奖励或惩罚,评估维度包括答案正确性、避免冗长以及保持语言一致性。
面向主观任务:对于通用任务,则使用生成式奖励模型,每个提示都根据其独特的一套评估准则进行打分。
这种精密的奖励设计巧妙权衡了详尽度与准确性、语言一致性与正确性之间的平衡,最终产出的模型不仅能力强,而且能更好地与用户期望对齐。
DeepSeek-V3.2-Exp在多项关键基准测试中,与前代模型DeepSeek-V3.1-Terminus的总体表现相当。例如,在综合知识评测MMLU-Pro上得分持平(均为85.0),在数学推理AIME 2025和编程竞赛Codeforces等任务中性能甚至有小幅提升。
更重要的是,在效率上实现了质的飞跃。官方性能数据显示:
长文本推理速度提升约2-3倍。
内存使用量降低约30%-40%。
API调用成本整体降幅超过50%。在高缓存命中场景下,输入成本可低至0.2元/百万token,输出成本降至0.16元/百万token,使得高缓存场景成本降幅最高可达70%-80%。
[此处为图片1]
4. Claude Sonnet 4.5
Claude Sonnet 4.5 被认为是当前全球最强的代码模型。它不仅在复杂智能体(Agent)的构建中表现出色,也是最擅长“使用计算机”的模型,并且在推理与数学能力上取得了显著进步。
程序代码无处不在,它推动着我们所使用的每个应用程序、电子表格和软件工具。能够熟练掌握这些工具并解决复杂问题,正是现代工作的重要组成部分。而 Claude Sonnet 4.5 正是使这一切得以实现的核心。
此次更新,我们为 Claude Code 引入了重大功能:
- 检查点(Checkpoints)—— 保存进度,可以一键回滚到任何历史状态;
- 全新的终端界面,并发布了原生 VS Code 插件;
- Claude API 新增上下文编辑与记忆功能,使智能体运行更长久、处理更复杂的任务;
- 在 Claude 应用中,直接支持代码执行和文件生成(包括表格、幻灯片、文档);
- Claude Chrome 插件向之前预订的 Max 用户开放。
同时,我们首次推出了 Claude Agent SDK —— 这个为尖端产品提供驱动力的基础架构,现在也成为了开发者的工具箱,帮助你像我们一样构建智能系统。
这是迄今为止最符合要求的尖端模型,在多个方面超越了之前的 Claude 系列。
Claude Sonnet 4.5 今天在全球范围内可用。开发者只需通过 Claude API 使用 claude-sonnet-4-5 模型即可,价格保持不变:每百万 tokens 仍为 $3 / $15。
Claude Sonnet 4.5 在 SWE-bench Verified 测试中的表现达到了行业顶尖水平,该测试专注于评估模型在实际环境中的软件编程能力。在实际应用中,我们发现它在复杂的多步骤任务上能够持续专注超过 30 小时,显示出卓越的稳定性和执行能力。
[此处为图片1]
在真实的操作系统任务评估 OSWorld 上,它以 61.4% 的得分领先,而四个月前,Sonnet 4 的最佳成绩仅为 42.2%。这一显著的进步充分展示了模型在实际计算环境中的强大能力。该模型在多个评估任务中表现出更强的能力,特别是在推理和数学领域有了明显的提升。
[此处为图片2]
金融、法律、医学以及科学和技术领域的专家一致认为,Sonnet 4.5 在专业领域知识掌握和推理能力方面,相比包括 Opus 4.1 在内的旧模型有显著提高。
[此处为图片3]
[此处为图片4]
[此处为图片5]
除了成为性能最强的模型外,Claude Sonnet 4.5 也是我们迄今为止最符合标准的尖端模型。凭借能力的提升和大规模的安全训练,我们显著改善了模型的行为,减少了迎合性回答、误导、权力追求以及鼓励不切实际想法等风险。
在智能体和计算机操作能力方面,我们也取得了重要的进展,特别是在抵抗提示注入攻击这一高风险问题上,增强了模型的安全防护能力。
[此处为图片6]
5. 总结
DeepSeek-V3.2-Exp 于9月29日发布,这是一个旨在提高长文本处理效率的开源模型。它首次引入了 DeepSeek 稀疏注意力(DSA)机制,在保持与前代模型相仿性能的同时,显著优化了长文本的训练和推理效率。其API价格大幅下降超过50%,降低了开发者的使用成本。
Claude Sonnet 4.5 则于次日(9月30日)发布,增强了其在编程和复杂任务处理上的优势。官方表示,它可以连续自主工作超过30小时,在实际软件编码测试 SWE-bench Verified 中达到行业领先水平。同时,它在计算机操作能力测试 OSWorld 上的成绩提升至61.4%,标志着其‘动手’能力的重大飞跃。此次更新还同步进行了多项产品改进,包括开放了 Claude Agent SDK,允许开发者构建自己的智能体。
简而言之,这两个模型的升级反映了AI发展的两个关键方向:DeepSeek V3.2 致力于让长文本处理更加高效和经济;而 Claude Sonnet 4.5 则专注于让AI智能体更加持久和可靠地完成实际工作。


雷达卡


京公网安备 11010802022788号







