面试官问:Agent 的规划模块是怎么实现的?
在大模型训练营的 Agent 实战项目拆解中,始终围绕“可落地、可面试、可复用”的三重目标展开:从原理理解到工程权衡,再到面试表达与实际案例应用。本文聚焦一个高频面试问题:
“Agent 的 Planning(规划)模块是怎么实现的?”
这个问题看似简单,很多人的第一反应是:“让大模型自己去规划任务就行。”但实际情况远比这复杂——在真实系统中,这种“完全依赖模型自主规划”的做法往往行不通。
接下来我们将深入剖析当前主流 Agent 系统中的规划机制,揭示为何大多数情况下,“规划”并非由模型自发完成,而是通过人为设计和程序结构来实现。
You are an AI assistant.To complete tasks, always think step by step,consider tools you have, and reason before acting.Use this format:ThinkDecideActObserve
一、多数 Agent 的“规划”,其实是人为预设的
目前绝大多数 Agent 框架中的 Planning 模块,并非由语言模型(LLM)主动推理产生,而是通过 Prompt 设计或代码逻辑被提前嵌入系统的。
换句话说,现在的 LLM 并不具备真正的“下一步该做什么”的自主思考能力。我们实际上是先规定好它的思维路径——如何拆解、如何执行、如何反馈——然后让模型在这个框架内填充内容。
例如,在一些典型提示词设计中,会明确告诉模型:“请按以下步骤进行:分析问题 → 拆解子任务 → 执行并验证结果”。这类结构化指令本质上就是人工植入的规划逻辑。
更复杂的框架如 AutoGPT 或 BabyAGI,则直接在程序层面写死了“任务生成 → 执行 → 反馈 → 调整”的闭环流程。LLM 只是在这个既定循环中负责生成具体文本内容,而非主导整个决策链条。
二、LLM 能否真正“自主规划”?
技术上讲,LLM 具备一定的任务分解能力。比如你可以给它一个 prompt:“请为‘撰写产品需求文档’制定行动计划”,它确实能输出一套看似合理的步骤。
但问题在于:
- 输出的步骤可能缺乏上下文连贯性;
- 多轮执行后容易偏离原始目标;
- 难以在运行过程中动态修正错误或调整优先级。
因此,实践中更多采用的是“半自动规划”策略:
设定一个专门的 Planner 角色,由 LLM 负责生成初步计划;再交由 Executor 模块执行;中间通过人工干预或代码校验机制检查计划合理性。这种模式下,规划过程虽有模型参与,实则仍受控于外部框架。
这也正是当前主流 Agent 架构的真实写照:表面自动化,实质为“人机协同”的半自动化体系。
三、真实项目中,谁来做规划?
在工程落地时,核心挑战在于:哪些部分交给 LLM 通过 Prompt 自主完成,哪些必须由人工或程序硬编码实现?
这个问题没有统一答案,但可以从以下三个维度进行权衡取舍。
3.1 何时由 LLM 自主规划(通过 Prompt)
适用于以下场景:
- 问题边界模糊、场景多变:如营销方案撰写、创意文案生成、调研计划制定等任务本身无固定解法,适合发挥模型的创造性。
- 需要灵活应变能力:当输入条件频繁变化、数据来源多样时,手动维护规则成本过高,不如借助 Prompt 引导模型动态生成应对策略。
- 人力维护成本高:若需每日更新逻辑规则,不如设计通用原则,让模型根据 Prompt 自主推导执行路径。
总结来说:凡是可以容忍一定不确定性的环节,鼓励模型“自由发挥”,使用 Prompt 驱动规划更为高效。
3.2 何时需人工或程序硬编码
适用于以下情况:
- 流程固定且要求高可控性:如身份认证、法务审核、风控审批等关键节点,必须确保绝对可靠,不能依赖模型随机发挥。
- 无需推理的纯逻辑操作:如按钮点击判断、表单字段校验、API 调用顺序控制等,属于确定性逻辑,更适合用代码实现。
- 安全与合规要求严格:模型可能输出不符合规范的内容,而硬编码逻辑可审计、可追溯、可复盘,更适合监管敏感场景。
一句话概括:凡是出错代价高的环节,绝不让模型“自由想象”。
3.3 混合模式:最常见也最实用的解决方案
现实中,绝大多数工程项目采用的是混合式规划架构,兼顾灵活性与稳定性:
- 主流程由代码或人工逻辑固定:确保核心业务流不跑偏;
- 关键节点交由模型规划:如内容生成、策略建议、风险评估等需要语义理解的部分;
- Prompt 中嵌入约束规则:例如“遇到非法请求直接返回失败”,防止模型越界发挥;
- 模型输出需经程序或人工校验:提升系统的安全性与可解释性。
这种设计本质上是在“灵活性”与“可控性”之间找到平衡点,是工业级 Agent 最常用的架构思路。
四、典型应用场景解析
为了更直观地理解上述原则的应用,下面列举几个实际案例。
Case 1:电商客服问答系统
硬编码部分:
- 用户身份验证流程
- 订单信息查询接口调用
- 退款申请处理逻辑
- 售后政策判断规则
这些环节涉及资金和权限,必须保证准确性和可审计性,因此全部由程序固化。
Prompt 部分:
- 用户自然语言的理解与回复生成
- 问题归纳与推荐话术生成
利用模型的语言能力提升交互体验。
总结:业务流程写死,对话内容交由模型生成。
Case 2:企业知识库问答系统
硬编码部分:
- 用户权限校验机制
- 文档检索逻辑与 SQL 查询构造
Prompt 部分:
- 对检索结果的摘要与解释
- 跨文档信息整合与推理
总结:访问控制与数据获取逻辑固化,语义理解和内容组织交由模型处理。
Case 3:舆情监测系统
硬编码部分:
- 网络数据采集流程
- 关键词标签定义与分类标准
Prompt 部分:
- 对新闻或社交媒体文本的情感打标
- 每日舆情报告的自动生成与趋势分析
总结:结构化数据处理交程序,语义分析任务由模型承担。
Case 4:合同审核 Agent
硬编码部分:
- 法律条款数据库维护
- 风险等级划分标准
Prompt 部分:
- 对合同条文的语义分析
- 生成合规性建议与修改意见
总结:合规规则写死,文本理解和建议生成交模型完成。
Case 5:项目任务规划 Agent
硬编码部分:
- 项目管理权限设置
- 任务追踪逻辑实现
Prompt 部分:
- 需求拆解策略
- 沟通建议生成
总结:项目的结构控制由程序负责,内容生成则交由模型完成。
五、主流框架中的规划机制解析
当前主流的 Agent 框架在实现 Planning 功能时,采用了多种不同的设计思路。以下是对几个典型框架的分析与对比。
5.1 ReAct
论文来源:《ReAct: Synergizing Reasoning and Acting in Language Models》
核心思想:让语言模型在执行过程中同步进行推理与操作,形成“边想边做”的模式。其输出格式被严格限定为固定结构。
规划机制:
- 在 Prompt 中设定一个明确的循环流程;
- LLM 在 “Thought” 阶段判断下一步行动;
- 外部系统解析 “Action” 字段并调用相应工具。
总结:采用即时动态规划方式,依赖 Prompt 设计和外部控制循环来驱动整个过程。
Thought → Action → Observation → Thought → ...
5.2 MRKL
论文来源:《Modular Reasoning, Knowledge and Language》
核心思想:将 LLM 视为“决策中枢”,通过推理选择合适的工具进行调用。
典型流程如下:
规划机制:
- Prompt 中列出可用工具及其功能描述;
- LLM 根据输入需求进行推理并决定使用哪个工具;
- 实际的工具调用由外部代码模块执行。
总结:规划的本质是工具路由选择,路径由 Prompt 决定,执行由程序保障。
思考 → 选择工具 → 执行 → 获取结果 → 再思考
5.3 BabyAGI
核心思想:构建一个自动化的任务管理闭环系统,包含三个核心组件:
- 任务创建 Agent —— 负责生成子任务;
- 任务排序 Agent —— 对任务优先级进行排列;
- 执行 Agent —— 执行已排序的任务。
规划机制:
- Task Creation Agent 完成任务分解与子任务规划;
- Task Prioritization Agent 进行调度优化;
- 执行环节由独立模块完成。
总结:整体规划逻辑运行在外部 Python 框架中,LLM 主要用于生成任务文本内容。
5.4 AutoGPT
核心思想:建立更强大的自我驱动循环体系,具备记忆、规划与命令执行能力。
主要模块包括:
- Memory(记忆存储)
- Planner(计划生成)
- Command Executor(指令执行)
规划机制:
- LLM 输出下一步行动的文字描述;
- 系统解析该描述并执行对应操作;
- 结果写回记忆模块,进入下一轮迭代。
总结:虽然表现出自主性,但每一步仍由外部主循环控制推进。
5.5 框架对比小结
| 框架 | 规划核心 | LLM作用 | 控制逻辑 |
|---|---|---|---|
| ReAct | 即时思考 + 行动 | 小步推理与决策 | Prompt 模板控制 |
| MRKL | 工具路由选择 | 工具调用决策 | Prompt + 程序协同 |
| BabyAGI | 子任务生成与调度 | 子任务内容规划 | 外部循环管理 |
| AutoGPT | 自我迭代式推进 | 生成下一步命令 | 主循环驱动 |
这些框架的共通点在于:
规划行为并非完全由 LLM 自主完成,而是依赖于 Prompt 设计与外部程序共同构建的控制结构。
六、面试官关注的核心点是什么?
在技术面试中,面试官通常不期望听到一堆术语堆砌,而是希望确认你是否真正理解“规划”的本质——即对执行流程的结构化控制。
可以这样组织回答:
当前主流 Agent 框架中的 Planning 机制,普遍结合了 Prompt 模板与程序化循环来实现。LLM 承担局部推理和决策任务,而整体流程的走向是由人工预先定义的控制结构所引导的。例如,ReAct 利用“Thought–Action–Observation”循环实现细粒度的实时规划,而 BabyAGI 则通过任务生成与优先级排序模块完成宏观层面的任务调度。
七、总结与思考
- 现状:目前 LLM 的自主规划能力仍然有限,高度依赖人为设计的提示词和系统架构。
- 原因:语言模型本质上是序列生成器,缺乏稳定的长期状态管理和执行控制能力,必须借助外部框架实现分步处理。
- 趋势:新兴研究正探索让模型自我修改 Prompt、自主制定任务计划等方向,但依然需要元层级的框架进行统筹管理。
- 核心启发:稳定可靠的 Agent 架构,往往是“人工搭建主干流程 + 模型填充细节内容”的混合模式。
本文内容源于实际参与的多个大模型项目实践,遵循“可落地、可复用、可表达”的三原则:从原理理解出发,经历工程权衡,最终转化为清晰的面试表述,并辅以真实案例支撑。
真正能拉开差距的,从来不是零散的知识点,而是背后的体系化思维与思考方式。 如果你正在准备大模型方向的求职,或者希望将 RAG 从“听说过”提升到“能动手、能讲解、能复盘”的水平,那么一个系统性的学习路径就显得尤为重要。不是只讲概念,而是聚焦于如何真正落地;不是只抛出方案,而是深入剖析其中的关键取舍;更重要的是,不只传授原理,还会告诉你面试官在技术面中真正关注的是什么。 在过去几个月里,已有超过80位学员(战绩真实可查)通过系统学习后,成功斩获心仪 offer。这些 offer 涵盖腾讯、阿里、字节跳动、华为、快手、智谱AI、月之暗面、minimax、小红书等多家头部大厂,同时也包括不少传统开发背景或零基础转行的同学,在短时间内顺利进入各类规模的科技企业。
近年来,整体经济形势面临下行压力,IT 行业更是承受着经济周期波动与 AI 产业结构调整的双重挑战。许多人不得不面对裁员或降薪的现实,处境艰难。但每一次行业低谷背后,往往也孕育着新的上升机会。当前,AI 大模型的发展趋势正处在快速上行阶段,已经成为不可忽视的技术浪潮。
尽管大多数人已经意识到这是未来的方向,却常常苦于缺乏入门的契机和系统的学习资源。而现在,这样的机会已经出现——一个专为新手设计的大模型训练营,能够帮助你从零开始构建完整的知识体系,实现从“知道”到“掌握”的跨越。
You are an AI assistant.To complete tasks, always think step by step,consider tools you have, and reason before acting.Use this format:ThinkDecideActObserve

雷达卡


京公网安备 11010802022788号







