我该如何记住你？智能体记忆系统的演化之路

4关注
124
粉丝

管理员

已卖：189份资源

泰斗

5%

还不是VIP/贵宾

-

0%

威望: 3 级
论坛币: 126617 个
通用积分: 12671.3335
学术水平: 278 点
热心指数: 286 点
信用等级: 253 点
经验: 231773 点
帖子: 7110
精华: 19
在线时间: 4413 小时
注册时间: 2019-9-13
最后登录: 2026-3-3

楼主

CDA网校

发表于 2026-2-4 09:48:42 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

AI Agent Memory System可被视为现代基于大语言模型（LLM）的智能体系统中不可或缺的基础组成部分。一篇最新的研究工作“Memory in the Age of AI Agents: A Survey”通过从形式、功能与动态三个统一视角系统梳理现有研究，我们厘清了代理记忆的概念框架，并将其置于智能体智能持续演进的整体背景之中。

在形式层面，该研究识别出三类主要实现路径：标记级记忆、参数化记忆与潜在记忆。近年来，这三种范式均经历了快速而深刻的发展，体现了在表示能力、适应机制以及与智能体决策策略耦合方式上的不同权衡。

在功能层面，这篇论文超越了既有研究中常见的“长期—短期记忆”二分法，提出了一种更为精细的分类体系，将代理记忆区分为事实记忆、经验记忆与工作记忆，并据此刻画它们在知识保留、能力积累与任务级推理中的不同角色。

从这些视角出发，可以清晰地看到：记忆并非附属的存储模块，而是智能体实现时间连贯性、持续适应性与长期能力增长的核心基础设施。

在系统回顾既有工作的同时，这篇论文进一步识别了代理记忆研究面临的关键挑战与新兴方向。强化学习的深度融合、多模态与多智能体环境的兴起，以及从以检索为中心向生成式记忆范式的转变，预示着未来的记忆系统将逐步走向完全可学习、自适应且自组织的形态。这一演进路径有望推动大型语言模型从强大但静态的生成器，转变为能够持续交互、自我改进，并具备原则性推理能力的真正智能体。

本文基于这篇论文对核心观点展开讨论，力求为习惯 TL;DR 阅读方式的读者梳理一条清晰的理解路径，体会代理记忆技术演进中的具体设计与权衡。

当生成变得廉价，记忆的代价，才开始显现它真正的价值。

前置知识：

什么是基于大语言模型的智能体系统（LLM-based Agent Systems）？

基于大语言模型的智能体系统，是一类以大语言模型（LLM）作为核心推理与决策单元、能够在环境中持续交互并完成任务的系统。这类系统的关键特征不在于语言生成本身，而在于它们被设计为能够感知环境、作出决策并推动环境发生变化。正是这种“持续交互”的能力，使智能体区别于传统的一次性语言模型调用。

从系统结构上看，一个智能体并不是孤立运行的，而是始终嵌入在某个环境之中。环境可以是软件系统、物理空间、互联网服务，或由其他智能体共同构成的协作场景。智能体在交互过程中不断接收来自环境的反馈，并基于这些反馈决定下一步行动。在单智能体设置下，这一过程表现为连续的感知—决策—执行循环；而在多智能体系统中，则可能体现为分工协作、角色互补，甚至是通过环境间接实现的隐式协调。

在每一步交互中，智能体所“看到”的并不只是环境的即时状态，还包括它所能访问的交互历史。这些历史信息可能包含先前的对话内容、工具调用的结果、中间推理过程、共享工作空间中的状态，或来自其他智能体的贡献。与此同时，任务本身也由一组相对稳定的规范所约束，例如用户目标、任务指令或外部规则。这些因素共同构成了智能体当前可感知的信息基础。

与传统智能系统相比，基于 LLM 的智能体最显著的特征之一是其行动方式的多样性。它们的行动不再局限于生成文本回应，而是覆盖了多个语义层级：既可以通过自然语言进行推理、解释和指令生成，也可以调用外部工具、制定执行计划、直接操控环境状态，或与其他智能体进行结构化通信。尽管这些行为在形式上差异很大，但在计算层面上，它们都源自同一个核心机制——基于上下文输入进行自回归生成的大语言模型。

在决策过程中，智能体通常会综合当前观察、任务目标以及来自记忆系统的信号来决定行动。这里的“记忆”并不只是简单地保存历史记录，而是作为一种可被检索和利用的信息来源，影响智能体的判断与选择。在输出最终行动之前，智能体内部往往还会经历多步推理、草稿式计算或隐式思考过程，这些过程通常不直接暴露给系统外部，但对行为结果具有关键影响。

从整体上看，一次完整的智能体运行可以被理解为一条交互轨迹：智能体不断观察环境、调取相关记忆、进行基于 LLM 的计算，并通过行动推动系统向新的状态演化。这种抽象能够统一描述从单个智能体借助工具完成推理任务，到多个智能体分工协作解决复杂问题的多种系统形态，也为后续讨论记忆在智能体系统中的作用提供了清晰的背景。

什么是智能体记忆（Agent memory）？

在基于大语言模型的智能体系统中，“记忆”不只是指简单的历史记录或上下文堆叠，而是一个能够跨交互持久保持、不断演化并主动为决策提供支持的认知子系统。Agent memory（智能体记忆）本质上是一种动态的、持久性的知识与经验积累机制，由此它与传统意义上的一些相关概念有着明确的界限。

首先，智能体记忆与LLM 本身的内部机制不同。传统的大语言模型在每一次推理时主要依赖内部的参数结构和短期上下文来生成结果，它本身并不具备跨会话、跨任务的持久记忆能力。虽然这类模型可以通过扩展“上下文窗口”来暂时保留更多信息，但这种机制是暂时性的、与具体推理密切耦合的，而非一种可被检索、组织和管理的长期记忆系统。

其次，智能体记忆也不是简单的检索增强生成（RAG）。RAG 通常通过外部知识库或向量数据库来扩展模型输入，它的目标是辅助模型获取与当前任务相关的事实性内容，但这种增强通常是被动的、针对单次推理任务的。与之相比，Agent memory 具有主动积累和不断更新的特性，它不只是为了让模型记住一个事实，而是为了让智能体在未来的多个交互中可以基于过去的经验做出更好的推理和决策。

再者，“记忆”也不同于常见的上下文工程。上下文工程主要关注如何在每次调用语言模型时有效组织 prompt，使得模型在当前会话内更好地利用历史信息。这虽然在一定程度上改善了单次对话的表现，却没能真正将历史经验转化为一种长期、可复用的认知结构。Agent memory 则不仅仅是为了当前输入服务，它还可以被设计用来承载身份信息、累积技能、保留长期偏好甚至映射复杂因果关系。

综合来看，智能体记忆包含以下几个核心要素：

持久性：记忆能够跨交互、甚至跨任务保存和积累信息，而不完全依赖单次上下文。
自我更新与演化：记忆中的内容不是静态的日志或缓存，而可以根据新的经验进行整合、删减和优化，使智能体逐渐适应环境和用户需求。
服务于决策与行为：记忆不仅是保存信息，更重要的是在后续的感知—推理—行动循环中被检索和利用，使智能体能基于过往经验进行更高质量的推理与规划。

因此，将 Agent memory 理解为一个“持久的经验系统”，而不是临时上下文或被动检索机制，是区分它与相关术语的关键逻辑。这种理解帮助我们在后续讨论记忆具体形式（如 token-level、parametric、latent）、功能（如事实、经验、工作记忆）和动态行为（如形成、演化、检索）时，有一个清晰的概念基础。

智能体记忆与上下文扩展、检索增强生成（RAG）和模型参数知识有什么区别？

在讨论 agent memory 之前，有必要先澄清一个现实背景：围绕“记忆”的大量研究，并非都指向同一类问题。尤其在大模型快速演进的早期阶段，“memory”这一概念曾被广泛而模糊地使用，既指模型内部的状态机制，也指系统层面的信息存储与调用。这种混用在一定程度上掩盖了 agent memory 的真正研究对象。

从 “LLM memory” 到 “agent memory”：一次必要的重分类

回顾 2023 至 2024 年的相关工作可以发现，许多被称为“LLM memory”的系统，本质上并非模型层面的记忆机制，而是围绕智能体构建的信息管理与经验积累模块。由于当时“agent”这一概念尚未形成稳定共识，这类工作往往被归入大模型能力扩展的讨论之中。然而，从今天的视角重新审视，这些系统的核心并不在于改变模型的参数或内部状态，而在于：让一个具备行动能力的主体，能够在多次交互与任务执行中，保存、更新并重新利用与决策相关的信息。这正是 agent memory 的定义核心。

因此，论文明确提出一种“重分类”的立场：许多早期的 memory 研究，与其说是在探索“模型如何记住”，不如说是在尝试回答“智能体如何形成持续性的经验结构”。在这一意义上，它们更应被视为 agent memory 的早期实践，而非 LLM memory 的直接延伸。

模型内部记忆并非 agent memory 的研究对象

基于上述界定，论文进一步划清了研究范围。一切发生在模型内部的机制——例如上下文窗口扩展、KV cache 管理、循环或状态空间架构——都不属于 agent memory 的讨论范畴。原因并不在于这些方向不重要，而在于它们关注的问题本质不同：这些方法旨在提升模型对当前输入序列的处理能力，属于表征与计算层面的改进；而 agent memory 关注的，是一个系统如何在时间维度上形成可积累、可演化、可被主动调用的经验。

换言之，agent memory 不存在于模型之中，而存在于 agent 的决策闭环之中。它与模型能力有关，但不等同于模型能力本身。

Agent Memory 与 RAG：从工具关系到认知差异

在实践层面，agent memory 最容易被混淆的对象是 RAG（Retrieval-Augmented Generation）。两者都涉及外部信息存储与检索，但其设计目标并不相同。传统 RAG 更像是一种知识访问工具：信息通常是静态的、预先构建的，其作用是在生成阶段为模型提供额外事实支持。而 agent memory 中的信息，则往往来源于 agent 自身的历史行为与交互结果，具有明显的经验属性。

论文引用了近期对 RAG 的进一步细分，将其区分为模块化 RAG、图结构 RAG 以及具备决策闭环的 agentic RAG。正是在这一分类中，agent memory 与 RAG 出现了局部重叠：当检索、更新与行动策略发生耦合时，RAG 系统开始呈现出记忆系统的特征。

但关键差异仍然存在：agent memory 的目标不是“补充知识”，而是“塑造行为”。它服务的对象不是一次生成，而是一个持续运行的智能体。

与 Context Engineering 的关系：机制相似，范式不同

最后，论文将 agent memory 与 context engineering 放在同一框架下进行区分。两者在机制层面可能高度相似，尤其在短期信息管理上，都依赖对上下文内容的筛选、组织与注入。但从范式上看，它们指向不同的问题：context engineering 是一种资源管理策略，关注如何在有限上下文中最大化即时表现；而 agent memory 是一种认知机制，关注信息如何在时间中沉淀，并持续影响未来决策。

因此，两者并非替代关系，而是一种交叉关系：短期内，agent memory 可能通过 context engineering 实现；长期来看，其价值体现在跨任务、跨时间的行为一致性与策略演化之中。

一、什么承载记忆？

在不同的智能体系统中，记忆并不是通过单一的统一结构来实现的。相反，不同的任务和交互需求往往要求不同的存储形式，每种形式都具有独特的结构特性。这些架构赋予记忆不同的功能，使智能体能够在交互过程中有效积累信息，同时保持行为的一致性。正是这些多样化的记忆形式，使智能体能够在各类任务场景中充分发挥其作用。

根据记忆的存储位置及其表现方式，我们可以将其划分为三类主要形态：

1.Token级记忆：

Token级记忆将信息以离散、持久的单元形式进行存储，这些单元可以从外部访问、检索、重组和修改。这里的“Token”是广义的表征概念，不仅包括文本令牌，还可以是视觉Token、音频帧或其他任何能够独立于模型参数被操作的元素。

由于这些单元显式可见，Token级记忆通常具有高度透明性、易于编辑和解释的特点，使其成为执行检索、路由、冲突处理，以及与参数化记忆或潜在记忆协同工作的理想层级。同时，这也是目前最常用、研究最成熟的记忆形式。

尽管所有Token级记忆都以离散单元存储信息，但这些单元的组织方式存在显著差异。根据结构复杂性，Token级记忆可分为三种主要类型：

(一维,Flat Memory）：信息以序列或无显式拓扑的单元集合形式存储，例如文本片段、用户行为轨迹或多模态向量块。单元之间未显式编码语义或关系。其优势在于简单、可扩展、易于快速增加或修剪Token，同时可通过相似性搜索实现灵活访问。然而，由于缺乏关系组织，推理和长期规划能力可能受限。

（二维，Planar Memory）：Token在一个平面内以结构化但单层形式组织，例如通过图、表或树连接。虽然显式建模了Token间的关系，但没有层次化结构。这类记忆适合支持明确的搜索、更新和组合推理，同时保持操作相对简单。

（三维，Hierarchical Memory）：通过多层结构及跨层连接形成立体或分层的存储体系。层次化记忆能够同时捕捉细粒度的低层信息和高层抽象知识，为长期规划、复杂推理和多步任务提供更稳定和连贯的记忆支撑。

Flat memory 将信息存储为离散单元的集合，而不显式地建模这些单元之间的语义或关系依赖。这些单元可能包括文本片段、用户档案、行为轨迹、它们对应的向量表示或多模态条目。这些单元之间的关系并未直接在记忆中进行编码。为了便于清晰连贯地呈现，我们将关于平面内存的先前工作按照其主要设计目标和技术重点进行分类。这种分类方式具有组织上的目的，并不意味着所得到的类别之间是严格平行或互斥的。实际上，某些方法可能适用于多个类别。

应用场景：

对话记忆：早期方法主要存储原始对话或递归摘要以扩展上下文窗口（Wang 等, 2025a；Lu 等, 2023）。后续研究引入分层管理机制，将活跃上下文与外部存储解耦，实现几乎无限上下文（MemGPT、Li 等, 2025l；Kang 等, 2025a）。更复杂的系统如Think-in-Memory（刘等, 2023a）和RMM（谭等, 2025c）则记录归纳思考和回顾性反思，用以指导未来推理。

偏好记忆：用于建模用户兴趣和决策模式，特别在推荐系统中十分关键。系统如RecMind（Wang 等, 2024h）、InteRecAgent（Huang 等, 2025d）通过存储用户画像和活跃物品池，实现上下文感知的个性化推荐。

档案记忆：专注于长期身份信息、角色属性或用户档案，确保智能体在多轮交互中保持行为一致。代表性工作包括MemoryBank（Zhong 等, 2024）、AI Persona（Wang 等, 2024f）以及ChatHaruhi（Li 等, 2023a）和RoleLLM（Wang 等, 2024d）等虚拟角色记忆系统。

经验记忆：由智能体在实际交互中积累，包括观察、思维链、行动轨迹及环境反馈。早期方法存档历史轨迹用于决策参考（Zhou 等, 2025a；Wang 等, 2025q），后续方法通过自我反思、结构化知识库或分层计划-执行架构，实现跨任务的经验迁移和动态更新（Shinn 等, 2023b；Tang 等, 2025c,d；欧阳等, 2025）。在编程或工具使用场景中，经验记忆可转化为可执行代码或工具操作条目，实现自我优化（Wang 等, 2024a；Xiao 等, 2025b）。

多模态记忆：从文本、图像、音频到视频帧等不同通道提取离散Token进行存储，实现跨模态的经验捕捉与检索。代表系统包括Ego-LLaVA（Shen 等, 2024）、Memoro（Zulfikar 等, 2024）、MovieChat（Song 等, 2024）以及具身场景中的KARMA（Wang 等, 2025r）和Mem2Ego（张等, 2025m）。

Planar Memory在Token之间引入了明确的组织拓扑，但结构仅限于单一层面，因此被称为二维（2D）存储器。其拓扑结构可以是图、树、表或隐式连接，其中关系如相邻、父子顺序或语义分组被编码在平面内，而不存在跨层或层级引用。二维Token存储的核心在于通过建立显式关联，将单纯的“存储池”转化为可组织、可推理的记忆体系。

结构形式与典型方法：

树结构（Tree）

树结构以层次化方式组织信息，可处理不同抽象层次的内容。例如，HAT（A et al., 2024）通过将长时交互分段并逐步聚合，构建层次聚合树（Hierarchical Aggregate Tree），支持从粗到细的检索，在长上下文问答任务中优于扁平向量索引。MemTree（Rezazadeh et al., 2025c）则引入动态表示机制，从孤立对话中推断层次模式，将具体事件抽象为高层概念，使智能体同时利用详细记忆与抽象知识。

图结构（Graph）

图结构能够捕捉复杂关联、因果关系和时间动态，是二维Token存储的主流形式。Ret-LLM（Modarressi 等, 2023）将外部存储抽象为可寻址三元组单元，使大语言模型能够与关系型表交互，类似轻量知识图谱。HuaTuo（Wang 等, 2023a）整合中文医学知识图谱和临床文本，为预训练模型注入专业知识；KGT（Sun 等, 2024）实现用户偏好与反馈的实时个性化图谱编码。PREMem（Kim 等, 2025b）将部分推理负载转移至记忆构建阶段，从原始对话中推导结构化记忆项及其演化关系。Memory-augmented Query Reconstruction（Xu 等, 2025b）维护查询历史，并基于检索记录重建更准确的查询。

时间线与上下文结构

TeaFarm（iunn Ong 等, 2025）沿时间线对话历史进行分段，并通过结构化压缩管理终身上下文。COMET（Kim 等, 2024b）利用外部常识库解析对话并动态更新上下文感知的角色图，包括推断的隐含属性。A-Mem（Xu 等, 2025c）将知识标准化为卡片单元，并按相关性组织，形成完整的记忆网络。Intrinsic Memory Agents（Yuen 等, 2025）采用分区架构，子代理维护角色特定私有记忆，同时协作访问共享记忆。

多模态扩展

在多模态智能体中，M3-Agent（Long 等, 2025）将图像、音频和文本统一为实体中心的记忆图；SALI（Pan 等, 2024）构建“现实-想象混合记忆”，将真实观察与未来场景预测统一在导航图中。

混合架构

对复杂任务，混合架构可将不同认知功能分离同时共享统一记忆基础。Optimus-1（Li 等, 2024d）将静态知识分离为规划用知识图谱，动态交互分离为抽象多模态体验池；D-SMART（Lei 等, 2025）结合结构化事实记忆与遍历式推理树，实现信息管理与推理分工。

Hierarchical Memory通过跨层次的连接将Token组织为具有立体结构的记忆空间。该结构允许在不同抽象层次上进行表征——从原始观察数据，到紧凑的事件摘要，再到高层次的主题模式。跨层次的连接不仅支持在同一层单元间的横向导航，也允许在抽象层次之间进行垂直跨越，从而形成多维度的记忆空间。

层次化Token存储超越了单纯的分层结构，其目标是构建具有深度抽象能力和动态演化机制的复杂系统。多级图结构或受神经科学启发的机制常被用于模拟接近人类思维的立体记忆空间，使信息更加丰富、记忆单元之间的连接更清晰明确。

典型结构与方法：

金字塔结构（Pyramidal Memory）：金字塔型存储将信息逐级组织至更高抽象层次，并支持从粗到细的查询。

HiAgent（Hu 等, 2025a）通过子目标为中心的分层工作记忆管理长期任务，为活跃子目标保留详细轨迹，并将完成的子目标压缩为可选择性检索的高层摘要。

GraphRAG（Edge 等, 2025）通过社区检测构建多级图索引，将实体级子图递归聚合为社区级摘要。

Zep（Rasmussen 等, 2025）将智能体记忆形式化为时序知识图谱（Temporal Knowledge Graph），并执行社区划分。

ILM-TR（Tang 等, 2024）采用树状金字塔索引，结合内循环机制，在不同抽象层次上重复查询摘要，并更新短期记忆，直至输出稳定。

EMG-RAG（Wang 等, 2024l）通过可编辑记忆图谱（Editable Memory Graph）实现多层结构，将树状索引（L1、L2）置于实体级记忆图谱（L3）之上，实现个性化控制。

G-Memory（Zhang 等, 2025c）在多智能体系统中构建三层图（洞察图、查询图、交互图），支持在高层抽象洞察与低层具体协作轨迹间垂直切换。

多层结构（Multi-level Memory）

多层结构强调分层专业化，每个模块或层级专注于特定信息类型或功能。

Lyfe Agents（Kaiya 等, 2023）区分显著长期记录与低价值短期细节，保持紧凑且行为关键的记忆层级。

H-Mem（孙和曾, 2025）明确安排长期记忆存储。

对话记忆通常被组织为语义抽象程度递增的多层结构：底层存储细粒度交互片段，高层存储压缩摘要。

生物学启发架构如 HippoRAG（Gutierrez 等, 2024）将记忆分解为关联索引组件（开放知识图谱）和底层段落存储，通过图谱层实现多跳检索；其后续 HippoRAG 2（Gutierrez 等, 2025）扩展至非参数化持续学习场景，引入更深层段落整合和在线LLM过滤。

AriGraph（Anokhin 等, 2024）在统一图谱中将记忆按信息类型分离，结合语义世界模型与事件级组件连接具体观察结果。

SGMem（Wu 等, 2025h）在原始对话基础上增加句子图谱层，将对话历史表示为分块单元内的句子级图谱。

CAM（Li 等, 2025g）将重叠语义图谱逐步聚类为层次化图式结构，实现阅读过程分层。

最新方法如 CompassMem（Hu 等, 2026b）与 MAGMA（Jiang 等, 2026）探索融合逻辑关系的层次化组合策略，以提升记忆检索与利用效率，使系统获取超越单纯语义信息的价值。

层次化Token存储将记忆节点置于层次维度与关系维度的交叉点，实现多维协同效应。该结构有助于编码更加全面和深入的语境化知识，并支持复杂多路径查询——既可在单层内部关系网络中检索，也可跨层级抽象进行检索。通过这种方式，系统能够高精度地获取任务相关记忆，从而显著提升任务表现。然而，其高度复杂的组织和信息密度也带来了挑战：确保所有存储记忆在语义上的一致性，以及设计最优的三维布局，仍是关键问题，同时检索效率也可能受到限制。

2.参数化记忆（Parametric Memory）

与标记级（Token-level）记忆将信息显式存储为可编辑单元不同，参数化记忆直接将信息编码到模型的参数中。在这种设计下，模型能够内化并回忆信息，而无需依赖外部存储。根据存储位置相对于基础模型的关系，参数化记忆可分为两类：

内部参数记忆（Internal Parametric Memory）：将记忆直接嵌入模型的原始权重和偏置中，通过调整基础模型参数实现新知识或行为的融合。

外部参数记忆（External Parametric Memory）：通过附加参数集合（如适配器、LoRA模块或轻量级代理模型）存储记忆，而不改变基础模型权重，从而实现模块化的记忆注入。

内部参数记忆将领域知识、任务先验或个性化信息直接编码到模型中，也可增强模型的长上下文能力。

存储时机：

预训练阶段：用于解决知识长尾问题，将记忆嵌入模型参数，同时知识本身可保存在外部知识库中（如 LMLM，Zhao 等，2025b；HierMemLM，Pouransari 等，2025）。部分研究优化注意力机制以提升长窗口记忆能力（Xiao 等，2024；Qin 等，2024b,c；Dao，2024；Shah 等，2024）。

中游训练阶段：在持续预训练中融入下游任务经验（Su 等，2025；Zhang 等，2025k），提升长窗口性能以维持短期记忆（Zaheer 等，2020；Chen 等，2024a）。

训练后阶段：适应个性化或特定任务需求，例如 Character-LM（Shao 等，2023）、CharacterGLM（Zhou 等，2024a）、SELF-PARAM（Wang 等，2025o）、KnowledgeEditor（Cao 等，2021）、MEND（Mitchell 等，2022）、PersonalityEdit（Mao 等，2024）、APP（Ma 等，2024）及 DINM（Wang 等，2024c），通过微调或梯度编辑实现知识注入或安全控制。

内部参数记忆的优势在于无需增加推理开销或额外部署成本，但缺点是更新困难：存储新记忆通常需要重新训练，且容易遗忘旧有知识。因此，它更适合用于存储大规模领域知识或任务先验，而非短期个性化信息或工作记忆。

外部参数记忆通过附加模块或辅助模型实现信息存储，避免直接修改基础模型权重，兼顾灵活性与稳定性。

实现方法

适配器方法（Adapter-based Methods）：

MLP-Memory（Wei 等，2025d）通过多层感知机将知识与 Transformer 解码器结合。

K-Adapter（Wang 等，2021）训练任务特定适配器，实现持续知识扩展而不干扰基础模型。

WISE（Wang 等，2024e）引入双参数记忆架构，通过路由机制在推理时动态选择使用预训练或编辑后的参数。

ELDER（Li 等，2025d）维护多个 LoRA 模块，利用输入语义自适应选择或融合模块，提高长期编辑的鲁棒性。

辅助模型（Auxiliary LM）：

MAC（Tack 等，2024）将新文档信息压缩为紧凑调制信号存储在外部记忆库。

Retroformer（Yao 等，2024a）学习过去任务成功或失败的经验，实现记忆化回顾。

生成（Generate）：通过辅助模型合成嵌入向量，干扰或增强 LLM 前向传播。

复用（Reuse）：直接传播先前计算状态（如 KV 缓存、中间嵌入）。

转换（Transform）：选择、合并或投影内部状态以压缩信息，实现高效上下文处理。

外部参数化记忆在适应性与模型稳定性之间提供平衡：记忆模块可增减或替换而不影响基础模型，支持模块化更新、任务特定个性化及可控回滚。避免全模型微调可能引发的灾难性遗忘或全局权重失真。但外部模块需与模型内部表示流程整合，作用间接，需要通过注意力机制或路由函数传递影响。

参数化记忆的核心设计决策是：完全融入基础模型（内部），还是以模块化形式附加（外部）。不同选择决定了记忆的更新灵活性、可扩展性及系统稳定性。

3. 潜在记忆（Latent Memory）

潜在记忆是指隐含在模型内部表示中的记忆，例如 KV 缓存、隐藏激活、潜在嵌入或其他连续状态，而非以显式文本标记或专用参数模块的形式存储。这类记忆是完全隐式的，不直接暴露给用户，但能够通过模型内部表示保留细粒度的上下文信息，从而在降低推理延迟的同时提升性能。

按照潜在记忆的来源对相关工作进行分类，潜在记忆主要可分为三类：

生成型潜在记忆（Generate）

生成型潜在记忆通过独立模型或编码器生成新的隐式表示，并将其提供给智能体作为可复用的内部状态。这些潜在表示通常是紧凑的连续向量或特殊标记，总结了长上下文、任务轨迹或多模态输入中的关键信息。生成后的潜在状态可以在后续推理或决策中重复使用，从而超越原生上下文长度，实现跨任务的知识保持。

单模态应用：在长文本建模中，模型将长序列压缩为少量内部向量或标记，用于替代原始输入（Mu 等, 2023; Luo 等, 2024; Xu 等, 2025d; Chevalier 等, 2023; Qian 等, 2025; Wang 等, 2024j, 2025n）。典型方法包括 Gist（Mu 等, 2023）生成摘要标记，Luo 等（2024）使用哨兵标记聚合局部语义，以及 SoftCoT（Xu 等, 2025d）通过最后隐藏状态生成实例特定的软标记。

多模态应用：潜在记忆扩展到图像、音频和视频，通过视觉语言模型或多模态编码器生成紧凑向量，如 CoMem（Wu 等, 2025d）、GUI 交互轨迹压缩（Wu 等, 2025e）、Time-VLM（Zhong 等, 2025）以及 MemoryVLA（Shi 等, 2025a）。这些方法能够在保持关键语义和长程依赖的同时，实现高效跨模态存储。

参数化辅助生成：部分方法结合参数化模块动态生成潜在记忆，例如 Titans（Behrouz 等, 2025b）将长程信息压缩到在线更新的 MLP 权重中，MemGen（张等, 2025d）在解码时生成潜在记忆，EMU（Na 等, 2024）训练状态编码器生成带回报和期望度注释的潜在嵌入。

生成型潜在记忆的核心优势在于可生成任务定制、信息密集且存储成本低的内部表示，同时避免重复处理完整上下文。然而，其缺点包括可能的信息丢失、生成偏差以及生成模块的额外计算和工程开销。

复用型潜在记忆（Reuse）

复用型潜在记忆直接重用模型内部的激活值，如 KV 缓存或隐藏状态，而不生成新的表示。这类方法将前向传播中产生的内部激活视为记忆条目，可重复访问以支持长程依赖或持续任务处理。

关键问题包括选择保留哪些键值对、如何建立索引，以及在长上下文下高效检索。

二、“记住”，对智能体意味着什么？

从通用、无状态的文本处理器向自主、目标导向的智能体的转变，并非简单的渐进演进，而是一场根本性的范式转变。这一转变凸显了无状态性的核心局限：从本质上讲，智能体必须能够持续存在、适应环境变化，并在时间维度上保持行为一致性。实现这一目标不仅需要更大的上下文窗口，更关键的是依赖于记忆能力。

为了提供系统性的分析，本节采用功能分类法来组织“为何需要记忆”的问题，这一分类法直接对应于智能体的核心需求。在最高层次上，我们区分了两个时间维度：

长期记忆：跨会话的持久存储，用于积累和维护知识。

短期记忆：会话期间的临时工作空间，用于活跃的推理与决策。

在这一高层次的时间划分下，可以进一步提炼出三个主要的功能支柱，构成了分析智能体记忆的重要框架。

这三类记忆系统并非孤立存在，而是构成一个动态、相互关联的架构，定义了智能体的认知循环。该循环始于编码阶段：在这一阶段，智能体的交互结果——例如新获取的事实或计划失败的反馈——通过总结、反思或抽象化过程被整合进长期记忆。随后，工作记忆承担处理任务，作为即时推理的活跃工作空间，支持智能体在当前情境下进行决策和问题解决。

为了增强推理能力，系统依赖于检索机制，从长期记忆中的事实记忆和经验记忆中提取相关信息，将持久知识转化为可操作的推理线索，从而实现跨时间的连续智能行为。

事实记忆指智能体存储和检索关于过去事件、用户信息及外部环境状态的显性、陈述性事实的能力。这些信息支持智能体的上下文感知、个性化响应和任务规划。

借鉴认知科学中陈述性记忆的框架，事实记忆可分为两类：情景记忆（记录特定时间、地点的经历）和语义记忆（存储一般性事实与概念）。在智能代理中，这一区分表现为连续处理：系统先将交互历史记录为事件片段，再通过摘要生成、反思、实体提取和事实归纳，将信息转化为可重用的语义表示，并存储在向量数据库、键值存储或知识图谱中。

这种架构确保代理具备三项核心特性：

一致性：维持行为和承诺随时间稳定，避免矛盾。
连贯性：回忆和整合相关历史，保持对话逻辑连续。
适应性：基于用户历史和反馈调整行为，实现个性化。

为了分析，我们按主要实体对事实记忆进行分类：

用户事实记忆：智能体通过用户事实记忆跨会话保存关于特定用户的可验证信息，如身份、偏好、历史承诺和重要事件，从而避免指代漂移、重复提问或矛盾回应。其核心目标是保持对话连贯性和任务目标一致性。

在对话连贯性方面，系统通常结合选择性保留与语义抽象策略。历史交互通过相关性、重要性或最近性评分筛选和压缩成摘要，以维持连续性而不超出工作记忆容量。进一步，方法通过将原始对话转化为高层语义表示或紧凑用户画像，从而稳定角色与偏好表达。

在目标一致性方面，智能体通过事实记忆跟踪任务状态，确保解释、请求和行动与主要目标保持对齐。复杂任务中，记忆被组织为便于局部检索的结构，如笔记图或联想机制，支持跨会话的连续决策。具身场景下，系统持续记录用户习惯和环境信息，减少重复探索与指令，同时将视觉流转化为可检索条目以支持行动。

总之，用户事实记忆将短期交互转化为持久认知基础，通过检索排序和语义抽象实现长程一致性与目标导向行为，提高系统可靠性、用户信任度及任务效率。

环境事实记忆：环境事实记忆关注用户外部的实体和状态，包括文档、代码库、工具及交互痕迹，旨在提供可更新、可检索、可治理的外部事实层，减少事实回忆不完整、多智能体协作冲突和冗余，支持长期任务稳定执行。

从实现维度来看，可以分为两个互补方向：知识持久性与共享访问。

知识持久性：知识记忆提供对世界和领域特定信息的持久表征，用于文档分析、事实性问答、多跳推理及代码或数据检索。系统通常通过结构化外部数据、摘要或知识图谱等方法增强推理能力，并将事实知识与模型权重解耦，实现无需重新训练即可更新或验证信息。在持续更新的场景中，模型可通过可训练的记忆池或辅助网络吸收新信息，从而适应动态环境并纠正过时事实，同时保持模型主干稳定。

共享访问：共享内存为多智能体协作提供统一事实基础，用于协调目标、传递中间成果和消除重复工作。智能体可以异步访问集体知识，从历史协作中提取可重用信息，保持一致性并提高系统整体效率。在复杂项目或社会模拟场景中，共享记忆通过集中或分层存储机制，使信息在智能体间自然扩散，支持大规模、历史感知的连贯行为。

环境事实记忆构建了持续更新、可审计且可复用的外部事实层。在知识维度，它提升了事实回忆的完整性、可解释性与可编辑性；在协作维度，它通过共享和治理机制增强多智能体任务的一致性和效率。

经验记忆封装了智能体将历史轨迹、策略提炼和互动结果编码为持久、可检索表征的机制。不同于工作记忆管理的短期情境，经验记忆关注跨事件的知识积累与传递。

三、记忆如何动态演化？

前面的章节介绍了记忆的架构形式和功能角色，勾勒出了一个相对静态的智能体记忆概念框架。然而，这种静态视角忽视了智能体记忆所固有的动态特性。与静态编码在模型参数或固定数据库中的知识不同，智能体记忆系统能够动态地构建和更新其记忆存储，并根据不同的查询条件执行定制化的检索。这种适应性能力对于实现智能体的自我进化和终身学习至关重要。

记忆的演化有三个流程：这三个过程并非相互独立，而是构成一个相互关联的循环，推动记忆系统的动态演化。在记忆形成阶段提取的内容会在记忆演化阶段与现有记忆库整合更新，而通过前两个阶段构建的记忆库则支持记忆检索，实现有针对性的访问，从而优化推理。反过来，推理结果和环境反馈又会回流至记忆形成阶段，用于提取新的见解，并进一步反馈至记忆演化阶段，以优化记忆库。这种循环机制使大语言模型（LLMs）从静态的条件生成器转变为动态系统，能够持续从变化的环境中学习并做出响应。

四、文章的回顾和展望

智能体记忆研究经历了从静态检索到动态生成、从手工管理到自我优化的深刻演进。早期研究主要集中在记忆检索上，通过索引策略、相似度度量、重排序模型和结构化表示（如知识图谱）提高查准率与查全率，并结合向量检索、混合信号检索和分层过滤等方法。然而，这些方法普遍假设记忆库完善，并依赖人工设计的规则或固定策略，在复杂、动态环境中的泛化能力有限。随后，研究关注逐渐转向记忆生成和自动内存管理。记忆生成使智能体能够根据任务需求主动合成新的表征，而不仅是检索已有片段，分为“先检索再生成”和直接生成两类方法，如ComoRAG、G-Memory、CoMEM及MemGen、VisMem。自动化内存管理则通过聚类、抽象和工具化操作优化记忆构建与演化，使智能体能够在长期、多任务交互中自主管理记忆，如CAM和Memory-R1所示。

强化学习的引入进一步加速了记忆系统的自主化。早期智能体依赖启发式或提示驱动的记忆管理方法（如MemoBase、Dynamic Cheatsheet、G-Memory），而强化学习辅助系统（如RMM、Mem-α、MemSearcher）则将记忆构建、压缩、折叠和管理纳入模型原生能力，使智能体能够在超长、多轮任务中自主优化上下文信息。未来，完全基于强化学习的记忆系统可能成为主导方向，这类系统不仅可减少对人工设计先验的依赖，还能赋予智能体对记忆生命周期各阶段的完整控制权，从而实现自我组织与端到端优化。

随着智能体逐渐面向多模态环境，记忆研究扩展到视觉、音频、视频等异构信号，多模态记忆不仅支持跨感官信息的存储与检索，还提升生成系统的一致性和连贯性。未来，多模态记忆需在统一表征下支持抽象、跨模态推理和长期适应，以实现具身化和交互式环境中的稳健操作。多智能体系统的发展又引入了共享记忆的需求，通过集中式向量存储或黑板系统实现团队协作和长期协调，未来可通过学习驱动的共享内存管理和角色感知策略，实现跨异构信号的集体知识整合。

在世界模型中，记忆机制是高保真模拟环境的核心，用于维护长期空间与语义信息，实现连贯的迭代仿真。架构从简单缓冲和滑动窗口方法发展到状态空间模型、显式记忆库和稀疏检索机制，并向主动记忆管理和双系统（快速与慢速）架构演化，以兼顾实时响应和长期一致性。可信记忆研究强调隐私保护、可解释性和幻觉鲁棒性，提出细粒度权限控制、可审计更新、差分隐私以及可视化和推理路径分析等策略，为长期记忆和多智能体环境提供可靠保障。

值得注意的是，当前智能体记忆在结构上与人类认知模型存在一定呼应：容量有限的上下文窗口与外部向量数据库类比工作记忆与长期记忆，情景、语义和程序记忆的划分也反映了Tulving的认知分类。然而，智能体缺乏人类记忆的动态构建与重塑能力。下一代系统可能通过引入类似生物睡眠的离线巩固机制、生成式重建和潜在记忆表征，实现经验的内化与压缩，从而在稳定性与可塑性之间取得平衡，使记忆从静态存储转向可学习、生成、自我优化的动态认知子系统。综合来看，这一系列演进描绘了智能体记忆的未来图景：从单纯检索和规则驱动，逐步迈向自主、生成式、可信、多模态和强化学习驱动的整体记忆体系，为长期适应、持续学习和复杂多智能体协作奠定基础。

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：智能体 Hierarchical Construction Engineering Personality

我该如何记住你？智能体记忆系统的演化之路 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

前置知识：

什么是基于大语言模型的智能体系统（LLM-based Agent Systems）？

什么是智能体记忆（Agent memory）？

从 “LLM memory” 到 “agent memory”：一次必要的重分类

模型内部记忆并非 agent memory 的研究对象

Agent Memory 与 RAG：从工具关系到认知差异

与 Context Engineering 的关系：机制相似，范式不同

一、什么承载记忆？

1.Token级记忆：

树结构（Tree）

图结构（Graph）

时间线与上下文结构

多模态扩展

混合架构

典型结构与方法：

多层结构（Multi-level Memory）

2.参数化记忆（Parametric Memory）

存储时机：

实现方法

3. 潜在记忆（Latent Memory）

生成型潜在记忆（Generate）

复用型潜在记忆（Reuse）

二、“记住”，对智能体意味着什么？

三、记忆如何动态演化？

四、文章的回顾和展望

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

20周年荣誉勋章

本版微信群

我该如何记住你？智能体记忆系统的演化之路 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

前置知识：

什么是基于大语言模型的智能体系统（LLM-based Agent Systems）？

什么是智能体记忆（Agent memory）？

从 “LLM memory” 到 “agent memory”：一次必要的重分类

模型内部记忆并非 agent memory 的研究对象

Agent Memory 与 RAG：从工具关系到认知差异

与 Context Engineering 的关系：机制相似，范式不同

一、什么承载记忆？

1.Token级记忆：

树结构（Tree）

图结构（Graph）

时间线与上下文结构

多模态扩展

混合架构

典型结构与方法：

多层结构（Multi-level Memory）

2.参数化记忆（Parametric Memory）

存储时机：

实现方法

3. 潜在记忆 （Latent Memory）

生成型潜在记忆（Generate）

复用型潜在记忆（Reuse）

二、“记住”，对智能体意味着什么？

三、记忆如何动态演化？

四、文章的回顾和展望

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

20周年荣誉勋章

本版微信群

3. 潜在记忆（Latent Memory）

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

扫码加我拉你入群