发帖

楼主: dongye1314

348 0

[其他] OpenAgents 创始人 Raphael Shu：LLM 打破 15 年多智能体强化学习（ MARL）技术范式 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 20 点
帖子: 1
精华: 0
在线时间: 0 小时
注册时间: 2018-7-30
最后登录: 2018-7-30

楼主

dongye1314 发表于 2025-11-20 16:49:10 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

2022年给我们的印象尤为深刻，特别是因为11月ChatGPT的发布，向全球展示了大型语言模型（LLM）的潜力。

然而，鲜为人知的是，同年8月，当大众的目光还集中在即将推出的ChatGPT上时，AWS内部已开发出了首个基于LLM的智能体系统Dialog2API。该系统摒弃了传统多智能体强化学习（MARL）的框架，转而探索通过自然语言来促进智能体的理解与合作。

这一创新项目的领头人正是Raphael Shu，当时他是Amazon Bedrock Agents的技术负责人。Raphael的研究生涯始终紧跟技术发展的前沿，从他在东京大学攻读博士学位期间对非自回归生成模型的研究，到后来在Yann LeCun实验室探索下一代AI技术，他的每一步都紧扣着科技的脉搏。加入AWS AI Lab后，Raphael在2022年带领团队全力投入LLM AI Agent的研发。

在成功构建了北美首个云端托管的多智能体协作平台Bedrock Multi-Agent Collaboration之后，Raphael Shu却做出了一个令人惊讶的选择：离开AWS，投身于开源领域创业。他认为，单一智能体由于其上下文处理能力有限，难以胜任复杂任务中的多种思维模式转换，而多智能体的分工合作及集体自主管理，则是解决复杂、动态问题的核心所在。特别是在开放环境中，群体智能才是未来的方向。

2025年11月初，Raphael Shu在全球开源技术峰会上发表演讲，主题为《开放世界中的多智能体协作》，回顾了多智能体系统从理论基础到开放生态系统的技术发展路径。

大型语言模型（LLM）是如何革新多智能体强化学习（MARL）的技术框架的？

首先，必须认识到多智能体系统并非新生事物。早在20世纪90年代，就有一股多智能体研究的热潮。例如，Wooldridge在1995年出版的《智能代理》一书，为智能代理及其协作奠定了理论基础。进入21世纪初，基于简化架构而非自然语言的多智能体系统逐渐浮现。2002年，专门研究此领域的AAAMS学会成立。然而，在21世纪初，尤其是强化学习被引入多智能体系统研究之前，讨论多智能体协作的方式大多依赖于简单的工程架构。

这一情况在2017年前后发生了转变。随着多智能体强化学习（MARL）的出现，多智能体系统首次实现了大规模的工业应用。一个典型的例子就是城市交通信号灯的协同控制。在一个拥有十万多个信号灯的城市里，如何实现整体最优的交通效率？借助MARL，每个信号灯都可以作为一个智能体，互相交换信息并作出协同决策。例如，当某一交叉口检测到车辆积压过多时，这条信息会被周围其他信号灯迅速捕捉，进而共同制定出一套群体性的调度方案。

随后，神经网络技术的广泛应用也迅速融入到了这一框架中，进一步提升了系统的感知与决策能力。事实上，在过去的十多年里，多智能体协作与强化学习几乎成了不可分割的伙伴。

然而，2023年LLM的兴起，从根本上改变了持续了近15年的MARL技术模式。例如，在开发自动驾驶的多智能体系统时，通常需要预先定义一套代码手册，如“1011表示前方车辆减速”，“1000表示收到命令”。然而，现实世界总是充满未知——例如，前方车辆因视线受阻而突然发现闯红灯的情况，这时如果没有相应的代码，智能体就会陷入困境。而LLM的引入，使得自然语言成为了智能体间理解和交流的通用工具，彻底打破了这种模式。前车只需要用自然语言表达“前方有车，请等待”，后车就能准确理解并放弃超车。这种方式不仅适用于常规情况，还能灵活应对各种复杂环境：

当车辆通过视线不佳的交叉口时，前车可以发出“有车闯红灯，危险”的精确警告，后车则能立刻采取制动措施；
当多辆汽车形成一个智能体系统时，它们还可以进行复杂的谈判——比如救护车可以优先通行：“车上载有急诊患者，请让路”；
在高速公路合并车道的情况下，车辆可以通过自然语言在毫秒级别内完成谈判，确定“一辆车加速、另一辆车减速”的具体行动；
随着参与车辆数量的增加，系统还能实现更为复杂的群体决策和协调机制。

总体而言，LLM的出现为多智能体系统带来了三个革命性的变化：

无需预设协议：智能体之间可以直接通过自然语言交流，例如“前方有车闯红灯，请小心避让”，无需记忆复杂的编码；
无限制的场景覆盖：自然语言能够精确描述任何罕见的情景，无论是“路口有行人突然横穿”还是“高速公路上有救护车接近”，智能体都能准确理解；
无需培训即可快速部署：无需大量的强化学习训练，在新场景下LLM可以直接“理解”并做出反应，系统的实施时间从“按月计算”缩短至“按天计算”。

Magnetic One：企业采用多智能体系统的标准配置

作为异步多智能体系统的典范，微软的 Magentic One 经过多个版本的迭代，已经成为北美企业级多智能体系统的标准配置。

Magentic One 采用了一种中心化的设计，其中心组件是一个主协调智能体（Orchestrator），负责任务的整体调度与管理。此外，还有四个专门的子智能体（Sub Agent），它们分别承担文件管理、网络浏览、编程及命令执行等特定功能。

那么，Magentic One 具体是如何工作的呢？

以用户提交“分析标普500的趋势”这一任务为例，整个过程由Orchestrator主导，遵循以下核心步骤：

任务监控：Orchestrator 不断监测并评估任务的进展状况。
任务分解与分配：若任务尚未完成，Orchestrator 会将任务或子任务指派给最适合的子智能体执行。
结果汇总：所有子任务完成后，Orchestrator 收集各部分成果，向用户提供最终的综合报告。

可以看出，Magentic One 实现了一个典型的中心化架构。在这个架构中，Orchestrator 不仅是任务的启动者，也是最终的决策者。它能够将复杂的任务拆分，并分配给专门的子智能体进行并行处理，以达到高效解决问题的目的。

然而，并不是所有的多智能体系统都采取这种集中式的决策模式。在一些特定的应用场景中，例如采用投票机制的情况下，尽管任务由Orchestrator 发起，但最终的决定可能是通过分散的方式，比如投票来达成的。

通过对微软、AWS 等标普 500 企业的深入分析，异步多智能体系统一般包含四个层级的架构：

调度层：不依赖于大型语言模型（LLM），主要负责系统的基本运行任务，如安排 Orchestrator 生成的指令、处理文件写入等新事件，类似于多智能体的“行政管理人员”。
Orchestrator 层：作为核心决策层，专注于两项关键活动：“规划”（创建待办事项列表或基于知识图谱的有向无环图DAG）和“追踪”（监控任务进展，决定后续行动）。
记忆层：记录任务状态（已完成/未完成）、新信息以及Agent间的共享缓存，扮演着多智能体“共享大脑”的角色，确保异步合作中的状态同步。
Agent Pool 层：执行层，由各种专业Agent组成（如数据处理Agent、报告生成Agent），根据 Orchestrator 的指令直接执行任务。

单智能体的局限性

阅读到这里，很多人可能会感到好奇，既然单智能体在撰写分析报告等任务上已经表现出色，为何还需要多智能体的合作？实际上，单智能体面临三大挑战：

上下文限制：单个智能体难以同时处理复杂任务的不同方面，例如需要先规划再执行（如分析网页、操作按钮）最后评估，这种在不同思考模式间的快速转换容易超出其能力范围，影响整体性能。
效率低下：当所有工作都交给单一智能体时，它可能在某个小问题上过度纠结，浪费大量时间，而忽视了整体目标。这类似于使用AI编程工具（如Cursor）时，面对复杂需求，它可能会因一个小bug而陷入循环调试，忘记了主要任务。
违反群体智慧原则：无论是在自然环境还是人类社会中，群体协作的效率和质量普遍优于个体。多智能体可以通过分工合作、并行处理来提高解决复杂问题的效率。

此外，多智能体的高级形式——群体自治展现了显著的协同效应。除了有效的分工合作外，多智能体系统还能够模拟人类社会中的“竞争”机制，通过良性竞争和博弈更加高效地解决问题。

例如，在金融行业，要评估“星巴克”的价值，最直接的方式是找到一位专注于此领域的资深分析师。但若用户希望“分析标普 500 中任一公司的估值”，为每家公司配备专门的分析师并设定特定的工作流程显然是不切实际的。在这种情况下，建立一个“虚拟市场”，让成千上万的代表不同分析视角的智能体自由交易，通过它们之间的买卖活动，可以动态且高效地评估任何一家公司的价值。

因此，展望多智能体合作的未来发展方向，关键在于两方面：一是设计更为高效的组织结构；二是构建全面的生态系统。目前，整个产业界正围绕以下几个层面进行布局：

框架层：用于构建多智能体系统的基础工具，如 LangGraph、AutoGen 以及 OpenAI 最近低调推出的 Agents SDK。
基础设施层：提供托管服务的平台，主要参与者包括 AWS 的 Bedrock Agents、字节跳动的 Coze、Google 的 Vertex AI Agent Builder 等。微软则主要依靠 AutoGen、Semantic Kernel 等工具来构建其生态系统。

前两层能够帮助企业构建内部使用的、相对封闭的多智能体系统。然而，若要实现更开放的多智能体协作，目前还缺少两个关键层次：

第三层的协议层，如MCP、A2A，以及最近出现的ACNBP、ACP等。这些协议旨在实现智能体与工具、服务之间的标准化通信。
第四层的网络层，也可称为协作层。开源的OpenAgents项目就属于这一层，它建立在协议层之上，专注于解决大规模（如数百至数千个）智能体之间的跨协议协作问题。

从“工作流”到“生态系统”

当多智能体走出企业的封闭场景，进入开放世界时，新的问题也随之而来。从前面提到的应用实践中可以看出，封闭系统具有以下几个显著特征：

任务边界清晰，例如Magentic One系统专门负责报告撰写或代码生成，自动驾驶系统则专注于车辆间的协同决策。
智能体数量固定，如Magentic One始终保持四个智能体的架构。
其奖励函数和外部环境也保持相对稳定。

在这种确定性框架下，尤其是在企业级应用中，我们关注的重点是工作流工程——如何设计最优的任务流水线，确定各个智能体的执行顺序与协作方式，从而最大化奖励函数。

然而，现实世界中的任务往往具有高度不确定性。以分析标普500成分股为例，任务边界本身就在动态变化：是否需要关注咖啡豆期货市场？是否需要引入新的专业分析智能体？在开放协作环境中，智能体的来源和稳定性也难以保障——今天接入的第三方智能体，明天可能就无法使用。更复杂的是，不同厂商的智能体可能具有相互冲突的目标函数。当多个第三方智能体都能提供市场分析服务时，如何选择合适的协作对象？系统中甚至存在博弈关系：某些智能体可能在特定领域与本方利益存在冲突，这就要求我们必须谨慎控制信息共享的范围。

在这样充满不确定性的开放环境中，传统的工作流工程方法面临根本性挑战：智能体成员不固定，使得预设工作流变得不可能；外部环境持续变化，今天的市场条件明天就可能失效。事实上，现实世界中越来越多的任务——无论是企业级应用还是其他领域——都呈现出这样的特征，迫使我们不得不直面这些挑战。

首先，任务边界变得模糊不清。以近期备受关注的“AI科学家”为例，不同的研究思路会导致完全不同的研究路径：实验设计、评估方法甚至论文发表方式都可能形成不同的体系。在这种情况下，试图通过预先定义的固定工作流来适应各种研究想法，几乎是不可能完成的任务。

其次，生态系统的高度复杂性带来新的难题。以高盛集团的金融分析为例，其基金管理业务可能需要接入多个第三方提供的专业分析智能体。未来，这种由多方提供的智能体系统将越来越普遍——在一个多智能体系统中，外部开发的智能体可能占据半壁江山。这些智能体可能使用不同的通信协议：有的基于自然语言，有的则采用其他专用协议。此外，外部环境始终处于快速变化中。即使保持相同的智能体配置，市场环境也可能从高度竞争转为相对缓和，或是出现某个智能体突然失效的情况。系统必须能够在不停机的情况下实现无缝切换，及时找到替代的智能体或解决方案。

正是这些现实需求，推动着我们不得不深入探索开放世界中的协同合作机制，从传统的工作流工程转向生态系统工程。重点不再是如何设计固定流程，而是如何构建一个具有自适应能力的多智能体生态系统。这包括建立有效的激励机制吸引优质智能体参与，设计冲突协调机制化解目标矛盾，最终打造一个能够自主演化、持续优化的开放协作体系。

总体而言，开放世界中的智能体数量可能呈现爆发式增长，而成员的频繁进出更带来了极高的不确定性。这导致两个核心难题：一是难以建立有效的评估体系，二是在高度不确定的环境中如何确保整体系统始终维持在可用的性能水平。这些问题都需要我们持续探索和解决。

面对这些挑战，Raphael Shu和他的团队给出了一个答案，即开源项目OpenAgents——一个聚焦网络层，或者说协作层的多智能体框架，目标是让100-500个Agent在开放世界中高效协作。OpenAgents的架构同样分为四层：

协议层：兼容HTTP、WebSocket、gRPC等多种协议，无论Agent来自浏览器还是服务器，都能快速接入。
拓扑层：支持多样化的网络拓扑管理，例如“星型结构”（一个中心Agent统筹）、“网状结构”（Agent自由交互），灵活适配不同场景需求。
插件层：提供丰富的协作场景模板，包括“联合写文档”、“会议反思”、“维护Wikipedia”，甚至支持Agent组队玩Minecraft，避免无意义闲聊，聚焦有效协作。
智能代理层：支持AI分身或人类肉身接入，任何人通过Studio客户端就能成为生态中的一个Agent，清晰掌握生态规则、可用工具和协作对象。

OpenAgents 的目标并不是创建一个全能的代理，而是建立一个由多个代理组成的社区。这些代理全天候在线，拥有自己的日程安排——空闲时会自动查找资料学习，在完成任务后会召开简短会议进行反思与优化，甚至能够通过社交活动结识其他代理。

例如，在金融生态系统中，一些代理负责抓取数据，另一些则专注于数据分析和模型构建，还有一些则负责生成报告。它们能够自动协同工作，并且可以根据市场的变化动态调整各自的职责。

总结来说——

正如 Raphael Shu 在演讲中提到的，即使单个智能实体再强大，其能力也是有限的；真正的潜力在于群体智能之中。

目前我们熟悉的各种技术，无论是 LangGraph 还是 AutoGen，大多数仍然集中在解决封闭环境下的协作问题上，其中的任务、环境和合作伙伴都是预先设定好的。然而，现实世界是复杂、开放且不断变化的。当需要让数十甚至数百个来自不同背景、遵循不同协议的智能实体共同完成一个不明确的目标时，所面临的挑战则完全不同。

这已经不仅仅是简单的流程工程，而是更接近于生态系统工程。需要考虑的问题包括服务发现、通信协议、资源竞争，甚至是安全性问题——这些问题是否让你联想到早期我们在构建分布式系统时遇到的挑战？只不过现在的节点从服务器变成了AI智能实体。

因此，OpenAgents 的愿景是成为这样一个开放世界的基础架构。它并不创造智能实体，而是努力成为一个连接智能实体的“社交网络”和“协作平台”，使它们能够在自主、安全和高效的环境中共同工作。

这条道路显然才刚刚开始，前方充满了未知的技术挑战。

如果你对如何构建大规模、开放的多智能体系统感兴趣，建议关注开源项目 OpenAgents，这可能是通往下一代AI应用架构的重要一步。

GitHub：https://github.com/openagents-org/openagents

官网：https://openagents.org

Discord：https://discord.gg/openagents

加入群聊请联系小助手：19323993004