大语言模型能够从互联网上庞大的文本数据中进行学习,但当它们试图进化为具备自主行为能力的智能体(Agent)时,所需的数据类型发生了根本性变化。智能体不再仅仅依赖静态文本序列,而是需要包含“观察-行动-反馈”完整闭环的交互轨迹(trajectory)数据。
研究表明,这类高质量交互数据的获取已成为当前 Agent 发展的主要瓶颈。人工标注成本极高,合成数据往往难以保证真实性和多样性,而直接记录现有 Agent 的行为轨迹又受限于其自身能力上限,无法生成超越当前水平的任务样本。
尽管已有部分研究尝试通过自我进化(self-evolution)机制让模型自行生成训练数据,但这些方法普遍面临两个关键限制:一是任务范围受限于模型已有知识体系,难以突破认知边界;二是仅支持单轮问答式交互,缺乏对复杂多步推理过程的支持。
针对上述挑战,由北卡罗来纳大学教堂山分校(UNC)助理教授姚骅修领衔的联合研究团队提出了一种全新的框架——Agent0,旨在通过引入外部工具与多轮交互机制,打破传统自演进系统的局限。
Agent0 的核心架构基于一个双智能体协同进化系统,包含两个从同一基础模型初始化的组件:课程智能体(Curriculum Agent)负责设计问题,执行智能体(Executor Agent)则尝试求解这些问题。
其中,课程智能体并非随机出题,而是通过强化学习(Reinforcement Learning, RL)进行优化,专门生成处于执行智能体当前能力边界的任务。这一“恰到好处”的难度设定是实现有效学习的关键。
如何识别这种能力边界?研究团队采用了一种巧妙策略:让执行智能体对同一问题生成多个独立答案。若答案之间存在显著分歧,则说明该问题正处于其理解边缘。他们将这种不确定性量化为奖励函数的一部分——当答案一致率接近50%时,即模型最“犹豫不决”之际,系统给予最高奖励。这种机制确保所生成任务既非过于简单,也非完全不可解。
然而,仅依靠模型内部知识仍不足以推动持续进化。若无外界输入,系统终将陷入知识闭环,无法产生真正新颖或更高阶的任务。为此,研究团队引入了一个关键外部工具:Python 代码解释器。
该工具支持代码执行、复杂数值计算和数学结果验证,并被同时赋予课程智能体与执行智能体使用权限。这使得两者都能借助编程手段完成超出纯语言推理范畴的操作。
由此形成了一种独特的螺旋式共演化机制:随着执行智能体利用代码工具解决更复杂的任务,其能力边界不断外扩。此时,原先具有挑战性的问题变得容易应对,导致其答案一致性上升,不确定性下降,进而使课程智能体获得的奖励减少。
为了恢复高奖励状态,课程智能体必须生成更具挑战性、需更多步骤调用工具的新任务。研究团队还在奖励函数中加入了对工具调用频率的正向激励,进一步驱动这一上升循环。
实验结果证实了该机制的有效性。经过三轮迭代后,课程智能体所生成任务中的平均工具调用次数由最初的1.65次上升至2.60次。任务难度同步提升:若用第一轮训练出的执行智能体去回答后续阶段生成的问题,通过率从64%逐步降至51%,表明任务确实在动态变难。
研究人员还人工抽样分析了各阶段生成的问题内容:初期任务相对直接,例如“在单位正方形内至少需要多少个点才能保证有两个点之间的距离不超过0.25单位”;而到了第三轮,问题已演化为如“给定满足特定递推关系的正整数序列,求第2024项除以1,000的余数”,此类问题要求设计算法、编写可运行代码并处理大数运算,体现出明显的复杂度跃迁。
在缺乏人工标注答案的情况下,系统如何评估执行智能体的答案正确性?研究者采用了多数投票机制:每个问题由执行智能体生成10个独立解答,得票最多的答案被视为“正确标签”,作为训练信号使用。
但研究团队意识到,这种伪标签(pseudo-label)的质量具有高度不确定性。对于简单任务,执行智能体的回答通常高度一致,标签可信度较高;而对于困难任务,答案分布分散,多数投票结果可能本身就是错误的。
为此,他们提出了 ADPO(Ambiguity-Dynamic Policy Optimization,歧义动态策略优化)算法。该算法根据任务的歧义程度动态调整训练策略:对于高歧义任务,降低其训练信号的权重,避免模型在潜在错误标签上过度拟合;同时放宽策略更新的约束条件,允许更大的探索空间。
传统的强化学习方法常严格限制每步策略更新的幅度以维持训练稳定性,但分析表明,这种限制主要抑制的是那些出现概率低但可能是正确的推理路径——而这恰恰是攻克难题所需的关键探索行为。ADPO 正是对这一矛盾的针对性改进。
此外,执行智能体的设计还包括一个重要特性:支持多轮交互式推理。不同于传统的一次性输入输出模式,执行智能体会经历多个推理步骤:首先进行自然语言思考,识别需计算的部分,生成 Python 代码,执行代码获取结果,再将结果整合回推理流程中,并可根据需要发起多轮代码调用,最终输出答案。
这一过程模拟了人类解决复杂问题时典型的“尝试-反馈-修正”循环,增强了模型面对未知挑战时的适应能力与深度推理潜力。

并非所有由课程智能体生成的任务都适用于模型训练。系统会依据自洽性分数进行筛选,仅保留执行智能体自洽性介于0.3至0.8之间的任务实例——因为过于简单的任务(接近1)难以带来有效学习,而过于困难的任务(接近0)则会导致伪标签的可靠性下降。
在基于Qwen3-8B基础模型的实验中,该方法展现出显著效果。经过三轮迭代优化,数学推理能力从初始的49.2%提升至58.2%,相对增幅约为18%。在多个标准测试集上,包括MATH(高中数学竞赛题)、GSM8K(小学阶段应用题)、以及2024和2025年美国数学邀请赛题目,模型性能均实现了稳定增长。
图丨数学推理基准的综合结果(来源:arXiv)
尤为值得关注的是其展现出的泛化能力。尽管训练过程聚焦于数学问题求解,但模型在多种通用推理任务上的表现也获得明显提升,平均提高约24%。具体来看,SuperGPQA(研究生级别跨学科问题)准确率由28.3%上升至33.0%;MMLU-Pro(多任务语言理解评估)从51.8%提升到63.4%;BBEH(Big-Bench困难子集)则从8.6%增至13.7%。这一现象表明,借助工具辅助所培养出的多步推理能力具备向其他领域迁移的潜力。
与当前无需外部标注数据的方法相比,Agent0同样表现优异:相较于R-Zero方法提升了6.4%,优于使用代码执行器的Absolute Zero达10.6%,甚至比依赖OpenAI API的Socratic-Zero高出3.7%。
消融实验进一步验证了各核心组件的重要性。若移除课程智能体对任务的选择机制,整体性能将下降9.3%;如果不引入对工具使用的奖励机制,则性能降低7.2%,说明这两个模块对于系统效能至关重要。
然而,研究团队指出,该方法更适用于具有明确评判标准的任务类型,如数学计算、编程实现和逻辑推理等。对于创意写作、艺术风格设计等主观性强、缺乏统一评价标准的任务,多数投票机制的效果有限,难以保证生成质量。
此外,虽然该框架摆脱了人工标注的依赖,但在运行过程中需要同时训练两个智能体,并为每个任务生成10个候选答案,导致较高的计算成本。目前整个系统依赖能够提供客观反馈的外部工具,因此在纯语言推理或需人类主观判断的任务中适用性仍存在局限。
尽管如此,Agent0所展示的技术路径极具启发意义。随着智能体技术的广泛应用,对高质量轨迹数据的需求将持续攀升,完全依赖人工标注的方式显然不可持续。Agent0的成功实践证明,通过精心设计的自我博弈机制结合工具调用能力,AI系统可以在无人类直接干预的情况下实现能力的螺旋式演进。
目前,相关研究代码已公开发布。
相关论文:https://arxiv.org/pdf/2511.16043
项目地址:https://github.com/aiming-lab/Agent0



雷达卡


京公网安备 11010802022788号







