楼主: 金在金服
15 0

提示词软件危机——Agentic AI系统的工程化挑战 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

小学生

14%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0143
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
40 点
帖子
3
精华
0
在线时间
0 小时
注册时间
2018-2-23
最后登录
2018-2-23

楼主
金在金服 发表于 昨天 07:03 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

随着大语言模型(LLM)的迅猛发展,一场深层次的技术范式变革正在悄然展开。以ChatGPT、DeepSeek为代表的生成式AI模型,逐渐取代了传统搜索引擎在信息获取中的核心地位,成为大众更偏爱的知识来源。与此同时,研究者们开始探索LLM更深层的能力边界,通过为其构建外部架构,催生出具备自主行为能力的Agent系统。Coze等面向非技术用户的低代码开发平台应运而生,显著降低了Agentic AI的开发门槛,使得普通爱好者也能在短时间内构建属于自己的智能体。

基于大语言模型的Agentic AI正从概念走向实际应用,不再仅仅是被动响应指令的工具,而是能够实现

自主规划、推理并执行复杂任务

的主动实体。然而,在这一热潮背后,我们似乎陷入了一个理想化的误区:

仅靠一些提示词、若干工具和一个工作流,就能构建出无所不能的万能Agent

许多专业团队在初建Agent时,通常会采用LangChain、AutoGen等主流框架快速搭建原型。这类方案开发效率高,展示效果出色,但很快便遭遇所谓的“80%陷阱”:

一个看似达到80分水平的Demo,当试图将其优化至接近99分、具备落地能力时,所面临的困难甚至超过推倒重来

这还不是最严峻的问题。每当行业为更大参数量、更强性能的新一代大模型欢呼时,Agentic AI开发者却可能正经历一场噩梦:由于智能体高度依赖自然语言提示,模型版本的更新往往会引发意想不到的负向影响。大量精心设计的提示词在新模型中失效——输出风格、逻辑结构乃至答题习惯都可能发生改变,每一次升级都意味着成百上千条提示规则需要重新调整。

学术界已为此提出一个专有术语:Prompt Migration(提示迁移)。这种现象并非源于模型能力退化,而是暴露了当前以提示工程为核心的构建方式的本质缺陷——它是一种脆弱且高度特设的方法论。问题不在于模型本身,而在于整个方法体系的结构性崩溃。

换言之,

Agentic AI的兴起,正伴随着系统性工程能力的严重缺失

当我们热情投入到强大智能体的构建中时,却不得不面对一个日益凸显的现实问题:

AI智能体系统过度依赖不稳定的自然语言提示,其核心决策逻辑深藏于不可见的“黑箱”之中

这种状态被我们定义为“提示词软件危机”。为了应对这一危机,部分研究者不断推出新的“提示词最佳实践”指南,例如增加指令长度、提供更多示例、强化System Prompt以约束模型行为。这些策略虽能在短期内缓解问题,却未能触及根本症结——即必须正视自然语言提示本身的脆弱性。

另一些研究方向尝试引入传统软件工程方法来弥补当前工程体系的空白。然而,Agentic AI的独特性使得经典软件工程范式难以适用:在该范式下,系统的运行目标、结构与反馈机制并非静态预设,而是在执行过程中动态生成和演化的。这种“设计时不可知”的特性,打破了传统软件工程中“设计即确定”的前提条件,导致现有工程手段

在应对提示词软件危机时显得捉襟见肘

由于系统性工程方法的缺位,当前大多数智能体表现出脆弱性高、行为不可观测、难以调试维护,并且无法从运行经验中持续进化等问题。

因此,我们认为,行业亟需一套

专为Agentic AI时代量身打造的系统性软件工程框架

为此,我们提出了一套由三大核心方法论构成的综合性工程体系,并将其具体实现为一个移动GUI智能体Fairy,用以验证其可行性与有效性。

在本系列文章中,我们将系统性地分享我们在Agentic AI工程化方面的思考与实践经验,内容分为三个部分:

问题篇:深入剖析提示词软件危机的三大本质缺陷,阐明Agentic AI系统所面临的独特工程挑战。

理论篇:详细解析三大方法论的设计原理,说明其如何分别解决鲁棒性、可观测性和可演化性的难题。

实践篇:以Fairy项目为案例,展示该工程框架如何在真实的Mobile GUI Agent场景中成功落地。

作为本系列的开篇,本文将聚焦于以下核心议题:

  • 提示词软件危机带来了哪些具体挑战?
  • 现有研究与实践在Agentic AI软件工程方面做出了哪些探索?

什么是提示词软件危机?

目前,绝大多数Agentic AI的开发仍停留在一种临时性、试错驱动的构建模式中。这种模式缺乏系统化的工程规范与约束机制,导致所构建的智能体普遍存在稳定性差、难以调试与维护的问题,远未达到生产级应用的标准。

其根本问题在于:Agentic系统的核心行为逻辑依赖于易变的自然语言提示,而这些关键逻辑被封装在语义生成的“黑箱”之内,无法被有效追踪或控制。我们将这一现象称为

提示词软件危机

这一危机与上世纪发生的“软件危机”中出现的

代码复杂度失控

具有相似性。不同的是,当前的挑战更多体现为

语义复杂度失控

工程师缺乏有效的工程工具来预测、设计和约束智能体的行为路径。

提示词软件危机带来的主要挑战

01 鲁棒性差

非确定性是大型语言模型固有的属性。在缺乏严格工程控制的前提下,这种不确定性会被层层放大,最终导致系统行为失控。该问题主要体现在两个层面:

宏观规划发散:

在处理复杂任务时,若缺乏清晰的知识边界与结构化约束,智能体往往依赖其通用预训练知识进行任务规划。这种基于泛化能力的推理方式容易导致路径偏离,进而显著降低任务执行的可靠性。

微观意图的误判:
当指令模糊或信息不完整时,智能体可能在局部解析阶段自动补全缺失内容,以维持动作序列的连贯性。尽管这一机制旨在提升流畅度,但常因过度推断而背离用户真实意图,造成“好心办坏事”的结果,削弱系统行为的可信度。

02 可观测性薄弱

可观测性是保障现代复杂系统稳定运行、可调试和可维护的核心基础。然而,当前多数 Agentic AI 系统——无论是单智能体还是多智能体架构——普遍存在可观测性不足的问题。

单智能体场景中:
规划、决策与反思等关键能力通常被封装在一个高度耦合且庞大的组件内。其内部逻辑对外不可见,仅能观察到输入与输出,无法追踪中间思考过程,严重限制了对系统状态的理解与干预能力。

多智能体系统中:
数据流与控制流相互交织,各组件之间的协作关系缺乏透明度,交互逻辑难以梳理与还原。在这种背景下,叠加 LLM 本身固有的不确定性,系统的意图演进、决策路径及当前状态变得极难追溯,导致调试困难,难以满足生产级系统对可靠性的基本要求。

03 自适应机制缺失

理想的 Agentic AI 应具备持续学习与演化的特性,如同真实智能体一般随使用不断成长。然而,目前大多数系统并未建立有效的演化机制,自适应能力明显缺位,主要体现在以下两个方面:

  • 由于缺乏工程化的记录规范,系统对自身决策过程、执行轨迹和环境反馈的记录往往短暂、零散且不成体系。宝贵的运行时经验无法沉淀,导致任务结束后难以开展有深度的复盘与反思。
  • 即便积累了原始数据,也缺少将其提炼为长期可用知识的标准化流程。这意味着系统无法将每次运行中的洞察转化为稳定的认知资产,从而错失能力进化的契机。

上述结构性与流程性双重缺失,使得智能体始终处于“新手模式”,反复在相同类型的任务中犯下类似错误,丧失了通过自我迭代提升性能并降低边际成本的可能性。

现有 Agentic AI 软件工程实践的探索

为应对“非确定性失控”问题,研究者尝试引入目标导向的需求工程(GORE)、分层任务网络(HTN)以及其运行时扩展 Tropos4AS。

GORE 强调在项目初期即明确定义系统的所有目标及其子目标,典型代表 KAOS 提供了一套形式化语言用于构建和验证目标模型,确保设计阶段就实现逻辑完备与无冲突。HTN 则是一种经典的任务规划方法,要求工程师预先设定高层任务如何分解为具体子任务。Tropos4AS 试图将 GORE/KAOS 所生成的目标模型应用于运行时环境。

然而,这些方法均根植于设计时规约,强调静态预定义,而 Agentic AI 的核心特征在于利用大模型在运行时动态生成目标与策略。二者范式相悖:预定义模型难以约束由 LLM 驱动的规划发散与意图臆测,因此在解决非确定性挑战上效果有限。

针对可观测性不足,研究方向包括借鉴多智能体系统(MAS)、信念-欲望-意图模型(BDI)或 MS-HTN 框架(即面向多智能体的 HTN 扩展)。

MAS 定义了多个智能体间的协同机制与通信协议;BDI 为单个智能体提供理性心智建模框架。尽管术语中包含“智能体”,但这些模型本质上属于符号主义AI范畴,其行为由显式编码规则决定,逻辑严格、可预测。

相比之下,基于大模型的 Agentic AI 其决策逻辑是涌现的、非线性的。试图用可预测框架去管理不可预测的行为,不仅难以解耦认知黑箱中的复杂耦合,反而可能抑制智能体的自主性。因此,传统架构在提升可观测性方面收效甚微。

最后,在应对自适应缺位方面,MAPE-K 控制循环被视为潜在解决方案。该模型通过 Monitor-Analyze-Plan-Execute over Knowledge 构成闭环,使系统能基于知识库对环境变化做出响应。

但传统 MAPE-K 的 K 库为静态结构,依赖人工维护,本质支持的是“自适应”而非“自演化”。虽有 Models@Runtime (M@R) 等尝试将知识库存储为运行时可更新的动态模型,但仍停留在结构化数据层面。

无论是静态库还是动态结构化模型,这些框架均缺乏真正的学习机制,无法处理 LLM 输出的短暂、非结构化、易失的认知堆栈,也无法将其有效固化为可复用的知识模块。因此,它们仍无法从根本上解决自适应机制缺失的问题。

随着传统理论在Agentic AI时代的逐渐失效,现有的软件工程方法已难以应对当前的技术挑战。这表明,我们亟需构建一个专为Agentic AI环境量身打造的全新软件工程框架。为了系统性地解决提示词引发的软件危机以及传统方法在鲁棒性、可观测性和可演化性方面的局限,我们提出了一套综合性强、结构清晰的软件工程框架。

该框架由三个相互支撑的方法论组成,每个方法论精准对应一个核心问题:提升系统的鲁棒性、增强行为的可观测性,以及保障架构的可演化性。接下来的内容将分为两个部分展开:

理论篇

在此部分中,我们将深入剖析所提出的三大方法论,详细阐述它们如何从原理层面应对Agentic系统中的关键挑战。通过对方法论的设计逻辑与技术路径的拆解,揭示其在提升Agent系统稳定性、透明度和演进能力方面的内在机制。

实践篇

以实际项目Fairy为案例,展示该框架如何在真实的Mobile GUI Agent场景中实现落地应用。通过具体实践验证框架的有效性,体现其在复杂移动图形界面环境下处理任务调度、状态追踪与持续迭代的能力。

作者简介

孙家正
复旦大学CodeWisdom团队博士生,主要研究方向为LLM Agent架构与技术,专注于Agentic软件工程与GUI Agent相关研究。

牛嘉阳
复旦大学CodeWisdom团队硕士生,研究聚焦于LLM Agent架构与技术,尤其关注GUI Agent领域的创新与发展。

李明轩
复旦大学CodeWisdom团队硕士生,致力于Mobile GUI Agent架构与技术研究,重点探索其测试方法与质量保障体系。

审核修改:
彭鑫,复旦大学计算与智能创新学院副院长、教授,CodeWisdom团队负责人,主要研究方向涵盖软件智能化开发与运维、人机物融合智能化系统、智能汽车及智能制造基础软件等领域。

排版|牛嘉阳

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:agent NTIC 工程化 TIC Age

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-5 18:26