11月28日,清华大学智能产业研究院(AIR)联合万国数据成功举办了以人工智能为主题的慈善公益分享会,同时这也是AIR学术沙龙的第48期活动。本次会议聚焦AI前沿发展,由清华大学计算机科学与技术系万国数据教授、智能产业研究院执行院长、人工智能医院联席执行院长刘洋教授担任主讲嘉宾,围绕《大模型驱动的可进化智能体》这一主题展开深入探讨。报告从大模型与智能体的技术演进切入,系统展示了团队在可进化智能体方向的研究成果,并结合人工智能医院等实际应用场景,回应了“智能体是否能在真实环境中实现持续类人进化”这一核心问题。
讲者简介
刘洋现任清华大学万国数据教授、智能产业研究院执行院长,同时担任计算机科学与技术系副系主任及人工智能研究院副院长,是国家杰出青年基金获得者。他的主要研究领域涵盖人工智能、自然语言处理以及AI for Science,主持包括科技创新2030“新一代人工智能”重大项目、国家自然科学基金委国际合作项目在内的多项国家级重点科研任务。曾获国家科技进步二等奖1项,省部级及一级学会科技奖励5项,以及4次重要国际会议最佳论文奖。在学术服务方面,他担任中国人工智能学会组织工作委员会秘书长、中国中文信息学会计算语言学专委会主任等职务,曾任ACL亚太分会创始执委兼秘书长、Computational Linguistics期刊编委、中国中文信息学会青年工作委员会主任。
报告核心内容
近年来,大语言模型迅猛发展,标志着人工智能进入全新阶段。当前技术格局呈现出鲜明特征:大模型作为智能系统的“内在核心”,提供理解与推理能力;而智能体则作为“外在载体”,承担起具体场景中的任务执行功能。在复杂、动态且真实的环境中,自主智能体展现出类似人类的持续进化潜力——通过长期交互不断自我优化,其进化速度甚至可能超越人类节奏。基于此洞察,刘洋教授提出“人类—环境—智能体统一对齐”作为智能体进化的基础准则,并从三个维度系统阐述团队最新研究成果:单智能体“智商”的提升、单智能体“情商”的演化,以及多智能体之间的“组织协同”进化。这些探索验证了可进化智能体的技术可行性及其广阔应用前景。展望未来,随着大规模环境下智能体群体持续协作与迭代升级,或将迎来第二次智能涌现,推动人工智能迈向更高层次的发展阶段。
一、“灵魂”与“载体”并行:AI发展的新范式
刘洋教授首先回顾了自2022年底ChatGPT发布以来大模型技术的飞速跃迁——过去需数十年积累的能力迭代,如今往往在数月内即可完成。这一变革催生出两大清晰趋势:大模型成为智能系统的“大脑中枢”,而智能体则成为赋能现实世界的“行动单元”。
当前,大模型正逐步演变为通用型智能引擎,广泛服务于机器人、医疗、金融等多个行业,具备强大的语义理解、逻辑推理和内容生成能力。其发展路径也经历了显著转变:从早期单一模态、专用功能的小规模模型,迅速过渡到支持文本、图像、音频、视频等多模态输入输出的通用架构。
与此同时,“智能体”(Agent)概念迅速崛起,成为连接AI能力与实际应用的关键桥梁。智能体本质上是以大模型为核心驱动的自主实体,更接近于“能够完成工作任务的人”,而非仅限于问答响应的传统模型。它具备记忆机制、工具调用、环境感知、决策规划和多主体协作等综合能力,能够深入渗透至各行各业的具体业务流程中。单个智能体可通过接入搜索引擎、计算器或专业系统等外部工具,极大拓展自身功能边界;而多个智能体协同运作时,则能完成远超个体能力的复杂任务链。
值得注意的是,这种发展趋势并非简单依赖技术堆叠。过去几年,业界一度陷入“参数崇拜”——追求从十亿、百亿直至万亿级别的模型规模扩张,普遍认为“越大越强”。但实践表明,当参数达到一定阈值后,单纯增加规模难以带来质的飞跃。正如人类脑容量数千年来未发生显著变化,但文明却持续进步,关键在于工具创新与社会组织形态的演进。人工智能的发展亦步入相似轨道:借助工具增强个体能力,依靠组织结构激发群体智能。
刘洋教授指出,在智能体这一新兴赛道上,全球整体处于相近起跑线。而中国凭借在网络基础设施、数字生态体系和海量数据资源方面的优势,有望实现从“并驾齐驱”向“引领发展”的战略转型。
二、可进化智能体的核心理念:三元统一对齐原则
在此背景下,刘洋教授团队提出了“可进化智能体”的整体构想:不再将智能体视为一次性训练完成的静态模型,而是将其定义为能够在真实环境中长期演化的动态系统。通过持续与环境互动、接收反馈信息、总结运行经验,形成“适应—调整—提升”的闭环机制,模拟达尔文式进化过程,从而实现能力的渐进式增强。
为了实现可持续且可控的智能体进化,研究团队提出了一套“智能体-人类-环境”统一对齐原则,旨在确保智能体的发展方向符合多方要求。该原则包含三个核心维度:
- 与人类意图对齐:在真实环境中,智能体持续与人类交互,必须准确理解用户的目标和意图,确保其行为模式和经验积累始终处于人类可接受的范围内;
- 与客观环境规律对齐:智能体需适应任务环境中的动态变化,如电商平台的页面更新、实时推荐逻辑或医疗流程的时间约束,以保障策略在现实场景中的有效执行;
- 与自身资源约束对齐:在执行任务过程中,智能体受限于时间、成本及计算资源等条件,因此需要在效率与性价比之间寻求最优平衡。
基于这一统一对齐框架,团队将智能体的进化过程划分为三个相互关联的层次:
- 单智能体的“智商”进化——衡量其完成指定目标的能力;
- 单智能体的“情商”进化——评估其在群体博弈中制定合理策略的能力;
- 多智能体的“组织”进化——探索多个智能体能否协同合作,形成高效团队以应对复杂任务。
三、“智商进化”:从错误与自标注中实现持续学习
在“智商进化”层面,研究聚焦于如何让智能体具备类似人类“吃一堑、长一智”的能力,在任务执行中不断积累经验并自我提升。
(1)由错误反馈驱动的经验学习机制
在实际部署中,大模型参数通常固定,难以像传统机器学习那样通过再训练来更新知识。这导致即使智能体曾在相似情境下犯错,也往往无法自动吸取教训,容易重复同样的失误。
为突破“错误无法记忆、经验难以沉淀”的瓶颈,团队设计了一个基于错误反馈的经验学习系统。当智能体出现明显错误时,系统会回放当时的上下文,分析出错原因,并引导大模型自行总结:“在何种条件下应采取更优策略”,从而生成可复用的经验规则。这些规则随后会在当前案例及其他未见场景中进行验证,只有通过检验的规则才会被写入长期记忆库。未来遇到类似情况时,智能体即可调用已有经验,显著降低重复犯错的概率。
实验结果显示:随着经验库的逐步扩展,智能体在多种任务中的错误率持续下降。更重要的是,许多经验展现出跨任务迁移能力——例如在A任务中学到的策略,也能有效应用于B任务的决策过程。
(2)基于自主数据标注的自我训练方法
智能体的策略优化高度依赖高质量的“交互轨迹”,即其在特定状态下所经历的观察、推理、行动及其结果构成的因果链条。这类数据是策略迭代和环境适应的关键基础。然而,传统方式依赖人工标注,成本高昂且难以覆盖真实世界的复杂性,严重制约了智能体能力的持续演进。
为此,团队在ReAct算法基础上提出了ActRe框架,使智能体在执行任务过程中能够自动生成可用于训练的数据。虽然传统的ReAct能在推理阶段输出“思考—行动”链路,但其动作(Action)缺乏系统性的合理性标注,难以直接作为训练样本使用。而ActRe引入了“原因生成”机制,即在每次采样新动作时,由模型同步生成该动作背后的“理由”(Reason),从而将“观察—思考—动作”完整打包为一条结构化的、可学习的交互轨迹。
利用这些自动生成并标注的轨迹,团队采用对比学习策略,强化成功路径、弱化失败路径,进而持续优化智能体的行为策略。
在文本具身平台AlfWorld和在线购物平台WebShop上的实验表明,在无需任何人工标注的情况下,智能体仅经过少数几轮迭代,便能从接近普通用户的水平提升至接近甚至超越领域专家的表现,充分展现了合成数据结合自监督学习在推动智能体进化方面的巨大潜力。
综上所述,错误反馈驱动的经验学习与基于ActRe的自主数据标注机制共同构成了智能体“智商进化”的核心技术路径:前者使其能从失败中提炼通用策略,后者赋予其在真实交互中生成高质量学习数据的能力。两者协同作用,使智能体在多任务环境下展现出持续改进与跨场景迁移的强大潜力,为构建真正可进化的自主智能体提供了关键支撑。
四、“情商进化”:在语言博弈中习得互动与策略能力
除了单智能体任务外,团队还将研究拓展至多主体语言博弈场景,探索智能体如何在复杂的社交互动中积累表达技巧与博弈策略,即所谓的“情商进化”。诸如德州扑克、外交游戏、狼人杀等多轮语言博弈任务,通常存在信息不完全、合作与对抗并存的特点,关键决策往往依赖发言内容、心理判断与策略布局的综合运用,是研究此类能力的理想试验场。
以狼人杀为例,几乎所有的信息都通过语言交流传递。团队构建的系统具备以下功能:
- 从长时间对局记录中自动提取关键发言与重要局势,而非简单地将全部对话输入上下文;
- 分析不同发言模式与最终胜负之间的关联关系,挖掘“在特定局势下,哪种表达方式更容易获得信任或支持”;
- 将诸如“建立信任”“伪装身份”“引导讨论”等高阶社交策略归纳为可复用的社会经验库。
大量对局实验显示,智能体逐渐涌现出多种社会行为特征,包括稳定的信任网络、针对性的对抗策略、多样化的伪装手段,以及试图主导舆论走向的“话语领袖”角色。这表明,智能体在长期的语言互动中逐步发展出理解他人意图、调整自身表达风格、建立合作关系或实施竞争策略的能力,为其向更复杂的多智能体社会系统演进奠定了坚实基础。
五、“组织进化”:构建智能体精英协作团队
在个体能力不断提升的基础上,团队进一步探索多个智能体如何协同工作,形成高效的组织结构。这一阶段的核心问题是:能否通过机制设计,使多个具备高“智商”与“情商”的智能体组成精英团队,共同应对超复杂任务?
研究关注点包括角色分工、信息共享机制、冲突协调策略以及集体决策效率等组织层面的问题。初步实验表明,当智能体之间建立起稳定的通信协议与信任机制后,其整体表现远超个体能力之和,展现出真正的“组织涌现”特性。
这一进展标志着智能体系统正从单一能力进化迈向群体协作智能化的新阶段,为未来构建大规模、自组织、可进化的多智能体系统开辟了新的技术路径。
在探讨智能体的发展路径时,若将“智商进化”视为衡量其完成任务能力的核心指标,“情商进化”则聚焦于多主体互动中的沟通与博弈技巧。而“组织进化”所关注的,是多个智能体如何通过协作构建高效团队,以应对单个个体难以独立胜任的复杂挑战。现实中,人类在处理高难度项目时常从不同部门抽调人员组成临时项目组,并在实践中不断调整角色与分工;类似地,多智能体系统也需要在持续协作中演化出稳定且高效的组织结构。
基于这一理念,刘洋教授团队提出了一种数据驱动的“组织进化”机制:首先从智能体库中随机选取若干成员组建临时团队,执行特定任务;随后根据任务结果评估每个智能体的实际贡献度,进行 credit assignment(信用分配);接着筛选出表现优异的高贡献个体,组成新的精英团队,并在此基础上探索更合理的组织架构与职能划分;最后,在多种不同类型的任务中重复该流程,使团队结构在多次迭代中逐步“进化”为更高效率的状态。
实验结果显示,该机制在管理学、大学数学、临床医疗等多个领域均显著提升了整体任务表现。一个值得注意的现象是:尽管不同任务下的最优团队组合存在差异,但具备“程序员”特征的智能体几乎始终出现在关键位置。这表明,拥有抽象建模和逻辑推理能力的角色,在跨学科协作团队中具有不可替代的核心价值。
六、实践案例:人工智能医院与可进化智能体闭环
在理论研究的基础上,刘洋教授团队进一步构建了一个融合“智商进化、情商进化、组织进化”的可进化智能体平台——Agent Hospital,旨在面向真实医疗场景实现技术落地。该项目受到 DeepMind 强化学习系统(如打砖块游戏、AlphaGo Zero)以及“斯坦福小镇”多智能体社会模拟实验的启发,但其研究重心已由游戏环境和社会行为分析转向解决实际医疗问题。
团队在虚拟空间中搭建了一座流程完整的数字医院:患者经历发病、分诊、挂号、问诊、检查直至康复的全过程,形成闭环诊疗流;医院涵盖二十多个科室、上千种疾病类型,既包含设定个性特征的 AI 患者,也集成了依据各类医学指南训练而成的多样化 AI 医生。虚拟时间被大幅加速,使得 AI 医生能在现实一到两天内完成相当于“虚拟两年”的临床实践,接诊上万名患者,并在成功与失败中不断积累经验、实现自我演化。
在此框架下,三类进化机制实现了有机协同:
- 智商进化:AI 医生在每一次诊疗过程中持续学习,提升专业判断力;
- 情商进化:在会诊与医患沟通环节,智能体需与其他“医生”或“患者”展开多轮语言交互,逐步优化表达方式与协作策略;
- 组织进化:面对疑难病例时,系统自动从不同专业背景的 AI 医生中遴选合适人选,快速组建跨学科会诊团队。
核心算法 Meta-Agent Zero 能够分别提取成功病例中的正向经验与失败案例中的反思教训,并将其沉淀为可复用的知识模块,推动 AI 医生在虚拟医院中实现“工作—复盘—进化”的闭环成长。实验表明,随着虚拟问诊数量的增加,AI 医生的诊疗准确率呈现明显上升趋势;而在真实医疗数据集上的测试结果也展现出相似的能力提升曲线,验证了“虚拟世界进化 → 现实场景迁移”路径的可行性。此外,基座大模型推理能力的进步也能反向赋能整个系统,赋予人工智能医院良好的可持续升级潜力。
从应用角度看,人工智能医院已初步形成清晰的落地前景:面向患者,支持跨机构、跨区域的联合诊疗,整合线上线下的问诊服务,并提供健康管理与疾病风险预测功能;面向医护人员,则提供自主问诊辅助、智能分诊建议、个性化诊疗模型等工具,助力提升单个医生的服务容量与质量,推动医疗资源的全局优化配置。
目前,该项目已进入测试阶段,并陆续获得国内外多家主流科技与产业媒体的关注报道,包括澎湃新闻网、量子位、MedTech World、China Daily 等,被视为“智能体推动医疗场景 AIGC 化”的代表性探索之一。
七、展望:迈向第二次“智能涌现”
在报告结尾,刘洋教授对未来可进化智能体的发展方向进行了展望。他指出,在高质量标注数据日益稀缺的背景下,让智能体在复杂环境中自主获取数据、自我标注、自我成长,将成为人工智能发展的关键趋势。
同时,他提出了“第二次智能涌现”的概念构想:如果说第一次智能涌现源于大模型依托海量算力与数据规模实现的能力跃迁,那么第二次涌现可能来自于大规模智能体群体及其组织形态的协同发展。即便单一模型能力再强,也难以独立承担登月工程、芯片制造等高度复杂的系统性任务;而当数千乃至上万智能体在有效组织机制下协同运作时,或将催生全新的群体智能形态,开启人工智能的新阶段。
清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,简称AIR,THU)是面向第四次工业革命所设立的国际化、智能化、产业化校级科研平台。作为推动人工智能技术深度融入产业发展的核心力量,AIR致力于通过技术创新驱动产业升级与社会进步。
该研究院由在多媒体与人工智能领域具有世界级影响力的科学家及企业家张亚勤院士于2020年创立。依托高校学术资源与企业创新机制双引擎,AIR聚焦突破关键核心技术,培育具备全球视野的智能产业领军人才,助力实现智能产业的跨越式发展。
目前,AIR重点布局三大研发方向:智慧交通(AI+Transportation)、智慧物联(AI+IoT)以及智慧医疗(AI+Life Science),围绕这些领域持续开展前沿探索与应用落地研究。

在科研成果方面,AIR不断取得突破性进展。例如,团队发布的X-VLA模型已全面刷新多项机器人基准性能记录,并实现开源共享,推动行业技术共进。此外,AIR还成功将人工智能应用于数学研究领域,开发出“AI数学家”系统,在解决均匀化理论等复杂问题上展现出巨大潜力。
在国际舞台上,AIR亦表现亮眼。研究团队曾荣获IROS国际机器人竞赛冠军,彰显其在智能系统研发方面的强大实力。
与此同时,AIR积极促进学术交流与跨界对话。例如,上海人工智能实验室白磊曾在AIR学术活动中分享关于“AGI and Science”的前沿思考,探讨人工智能赋能科学研究的全新机遇。研究院创始人张亚勤也多次参与高端论坛,包括出席第23届福布斯全球CEO年会,并与经济学家朱民深入对谈,共议AI+时代的技术演进与未来创新路径。
值得一提的是,AIR始终强调科学精神的本质驱动力。在一次回顾性文章中,研究人员写道:“我眼中的杨振宁先生,其持久而纯粹的好奇心,正是推动科学探索最本真、最深远的动力。”这一理念也深深影响着AIR的科研文化。


雷达卡


京公网安备 11010802022788号







