近年来,大语言模型(LLM)驱动的智能体系统经历了快速演进。从早期只能进行简单工具调用的浅层 Agent,发展到如今具备长任务执行、子任务拆解、长期规划与自我反思能力的
Deep Agents(深度智能体),开发者逐渐认识到:制约智能体表现的关键已不再是模型本身的推理能力,而是能否获取准确且完整的上下文信息。
本文将围绕以下四个维度展开分析:
- 智能体为何会失败?——基于“上下文工程”的视角解析
- 文件系统如何从根本上应对这些失败模式?
- Deep Agents 所具备的核心四大特征
- Claude Code、Manus 等先进系统强大的底层原因
1. 智能体失败的本质:从“上下文工程”看能力边界
多数情况下,智能体未能成功完成任务,并非因为所使用的 LLM 能力不足,而是由于未能获得正确的上下文信息。
通过“上下文工程”这一框架,我们可以将智能体在运行过程中涉及的上下文划分为三个关键阶段:
- 总上下文(Total Context):系统可访问的所有数据资源,包括文档、代码库、配置文件、数据库记录、历史交互日志等。
- 必要上下文(Necessary Context):为完成当前任务所需的最小信息集合。
- 检索上下文(Retrieved Context):实际被加载进模型上下文窗口中的部分内容。
当这三者之间出现不匹配时,智能体便容易发生失败。常见情形如下:
(1)必要上下文未包含在总上下文中(Total ≠ Necessary)
即所需信息从未被纳入系统索引范围。例如,客服类智能体需要回答报修流程问题,但相关文档尚未导入知识库。此类问题即使最强大的模型也无法解决。
(2)检索上下文缺失必要信息(Retrieved ? Necessary)
典型表现为语义搜索不准或信息层级过深。比如某 API 文档长达500页,但由于关键词偏差或嵌套结构复杂,检索结果未能命中关键方法签名。
(3)检索上下文远超必要内容(Retrieved >> Necessary)
导致多种负面效应:
- 对话上下文急剧膨胀
- LLM 推理成本显著上升
- 响应速度变慢
- 因噪声干扰过多引发逻辑错误
典型案例是工具返回了10,000 tokens 的网页全文,并直接塞入 context window,造成信息过载。
(4)必要上下文超出模型窗口容量(Necessary > Window)
如科研分析、大型代码重构、跨数百个文件的依赖追踪等复杂任务,其所需信息量根本无法一次性装入模型上下文。
上述四类问题几乎涵盖了所有“智能体看似不智能”的根本原因。而引入文件系统(File System),正是为了系统性地破解这些瓶颈。
2. 文件系统:赋予智能体“无限上下文空间”的核心能力
为何文件系统正成为构建高性能智能体的基础组件?因为它能够同时应对以下多重挑战:
- 上下文体积过大,无法装入模型窗口
- 检索精度不足,难以定位关键信息
- 缺乏持久化记忆机制
- 信息组织混乱,缺乏结构化管理
从智能体架构角度看,文件系统的价值体现在四个方面:
价值 1:作为“无限上下文缓存空间”
举例说明:一次网页检索可能返回 10k tokens 内容,若直接加入对话历史会导致上下文爆炸;但若将其写入文件系统,智能体后续可通过 grep 或 glob 命令精准提取所需的 100 行关键内容。
大文件写入 → 后续仅按需读取 → 降低 Token 成本 & 干扰
像 Claude Code 和 Manus 这样的系统均广泛采用该策略,实现高效的信息压缩与按需提取。
价值 2:提供“可随时读取的外部记忆”
智能体可以将以下内容持久化存储于文件系统中:
- 任务分解后的步骤计划
- 子智能体的中间输出
- 用户个性化偏好设置
- 临时草稿笔记(scratch notes)
在后续推理阶段再从中读取相关信息,从而形成类似人类“工作记忆(working memory)”的能力,支持多轮、跨阶段的认知延续。
价值 3:实现“结构化检索能力”
对于代码、配置文件、协议规范等具有明确格式的内容,纯语义搜索往往效果不佳。而文件系统提供了精确的操作手段:
ls
(列文件)
glob
(匹配文件)
grep
(按字符串查行)
read_file(start_line, end_line)
Claude Code 表现优异的重要原因之一,就在于其智能体能够在文件系统上执行细粒度、结构化的信息查询,而非依赖模糊的语义匹配。
价值 4:支持“自我学习与技能更新”
用户在交互过程中提供的规则、偏好或操作指南,智能体可主动写入文件系统,生成可复用的技能脚本或配置文件。这些文件可在未来任务中被重新调用,使智能体具备持续成长和适应环境变化的能力。
3. Deep Agents 的四大核心特征
Deep Agents 并未依赖某种神秘算法,其基础仍是 LLM 在循环中调用外部工具。然而,它与传统 Agent 的本质区别在于具备以下四项增强能力:
① 结构化且详尽的系统提示(System Prompt)
以 Claude Code 为例,其 system prompt 是业界知名的超长提示模板,涵盖:
- 多项工具使用规范
- 多步任务执行示例
- 异常处理流程
- 上下文管理策略
- 代码修改指导原则
这类高度结构化的指令体系,确保了智能体在面对复杂任务时仍能保持行为一致性与稳定性。
由此可见,Prompt 设计依然是决定 Deep Agent 是否真正“深入”的关键因素之一。
② 规划工具(Planning Tool)
例如 Claude Code 中的 Todo 工具,本质上是一个“无操作工具(no-op)”,它并不触发任何实际动作,但其核心作用在于:
- 引导智能体先制定清晰的任务计划
- 避免盲目执行导致的方向偏离
- 为后续步骤提供可追溯的路径依据
这种“强制思考”的机制,极大提升了任务执行的结构性与可控性。
③ 子智能体(Sub-agents)
Deep Agent 的一项核心能力在于其能够将复杂任务拆解为多个子智能体,每个子智能体独立负责特定的子任务。例如:
- 一个智能体专注于数据抓取
- 另一个负责代码修改
- 还有一个承担总结与推理的工作
这些子智能体通过共享文件系统实现协同工作,从而显著增强系统的并行处理能力、模块化结构以及深度探索潜力。
大文件写入 → 后续仅按需读取 → 降低 Token 成本 & 干扰
④ 文件系统(File System)
文件系统构成了 Deep Agent 架构中的关键基础设施,支撑着多种高级功能:
| Deep Agent 能力 | 文件系统的支持方式 |
| 长任务规划 | 将阶段性计划写入文件,后续按需读取执行 |
| 复杂任务分解 | 作为多个子智能体之间的共享协作空间 |
| 上下文过大 | 超出内存的内容可持久化存储,并精准调用 |
| 上下文缺失 | 用户反馈信息被记录进文件,形成持续“自我优化”机制 |
| 信息检索困难 | 利用 glob、grep 等工具实现细粒度内容查找 |
强制智能体对任务进行规划,并将规划结果写入文件系统,使得该智能体在后续执行中可以“回忆”之前的计划。这种设计是一种极为精巧的上下文管理策略(context engineering trick),有效突破了传统上下文窗口的限制。
4. 为什么 Claude Code、Manus、Deep Research 能实现“深度智能”?
原因 1:基于文件系统的精细检索能力
Claude Code 具备以下能力:
- 准确定位某一函数定义所在的行号
- 提取项目中所有 import 路径
- 识别与错误堆栈相关的全部文件
- 自动重构整个项目目录结构
这些操作远超语义搜索的能力范畴,依赖的是对文件系统的直接访问与解析。
原因 2:可持续的任务规划机制
结合待办事项(Todo)工具与文件系统,智能体能够在数十轮交互中保持行为一致性,实现跨周期的任务推进。
原因 3:子智能体间的深度协作
诸如科研分析或代码审查等任务天然具备分工特性,多个子智能体可并行运作,在统一文件空间中交换中间结果,提升整体效率。
原因 4:长系统提示提供“场外经验”
系统提示(system prompt)本质上是一套预编码的经验体系,为智能体赋予初始行为模式和决策逻辑。
总结:文件系统或将演变为智能体时代的新“操作系统抽象”
如果我们将:
- LLM 视作智能体的大脑
- 工具调用视为它的手脚
- 系统提示看作它的性格与规则
那么文件系统就是它的外部记忆、工作空间与学习资料库。
缺乏文件系统时,智能体只能局限于 context window 内进行浅层推理;而一旦拥有文件系统,它便获得了执行多阶段任务、复杂规划和深入探索的能力——这或许正是 Deep Agents 得以出现的根本原因。
展望未来,无论是企业级智能体、科研辅助系统还是代码自动化平台,都有望以文件系统为核心构建其架构。而当前的 Deep Agents,正是这一发展趋势的起点。


雷达卡


京公网安备 11010802022788号







