个人见解:
AI智能体:这是一种基于生成式人工智能的基础模型构建的系统,能够自主地在实际环境中行动,执行复杂的多步骤任务。
理解智能体如何在每个阶段提供支持,是实现其价值的关键。尽管如此,人依然是工作的核心。关注工作流程而非智能体本身,有助于团队在正确的时间点应用合适的技术。
选择最适合的工具或智能体,设计合理的人机合作模式,并明确如何让智能体与员工有效结合。真正的价值往往源于人、智能体和工具之间的良好配合。
在工作流程的每个阶段都应嵌入验证机制,包括内部监控和评估,以实现持续优化。
AI智能体元年:六大实战启示
成功部署AI智能体并非易事。随着AI智能体在过去一年中的兴起,一个共识逐渐显现:要做好这项工作,需要付出真正的努力和决心。在过去几个月里,我们已经讨论过生成式AI在价值创造和规模化方面的潜力。本文旨在帮助企业避免在部署AI智能体过程中的常见陷阱,促进价值创造。智能体驱动的企业转型,有可能引发前所未有的生产率提升。虽然一些企业已经从中受益,但更多的企业仍在瓶颈中挣扎,投入与产出不成正比,甚至不得不回退至人工操作,以弥补智能体的不足。
什么是AI智能体?
AI智能体是一种基于生成式人工智能基础模型构建的系统,能够在实际场景中自主行动,执行多步骤流程。它们通常依赖于自然语言处理技术,实现复杂任务的自动化,替代传统的人力劳动。这样的挑战并不罕见。回顾历史,每次新技术的推广都经历过类似的问题。为了总结早期的经验教训,我们深入研究了由麦肯锡主导的50多个AI智能体项目,以及市场上的其他相关案例,最终提炼出六个关键启示,旨在帮助领导者充分发挥AI智能体的潜力。
重点在于工作流程,而非智能体本身
要使AI智能体产生真正的商业价值,核心在于重塑工作流程。然而,许多组织过于专注于智能体或具体工具本身,结果往往是开发出了一些看起来很酷但对整体效率影响有限的产品。只有当目光转向“从始至终重新设计工作流程”——即重新构思涉及人员、流程和技术的所有方面时,AI智能体项目才更可能取得成功。理解智能体如何为每个环节提供支持,是实现价值的关键。尽管人仍然是工作的中心,但现在有各种智能体、工具和自动化方法来辅助他们。重塑工作流程的一个重要起点是对现有流程进行梳理,确定用户的痛点。这是至关重要的一步。只有准确识别问题所在,才能促进智能体与人的有效合作,简化不必要的步骤,更快更好地达成业务目标。这种合作通过持续的学习和反馈循环不断改进,形成一个能够自我进化的系统:使用越多,智能体就越聪明,越符合业务需求。
例如,一家现代法律服务公司试图革新其合同审核流程,发现法律逻辑变化迅速:新案例不断出现,不同司法区域的规定各异,政策解读也在不断更新,将这些专业知识一次性固定下来几乎是不可能的。为了应对这种固有的不确定性,团队为其智能体系统设计了一种持续学习的机制。例如,用户在文档编辑器中的每一次修改都被记录并分类,为工程师和数据科学家提供了宝贵的反馈信息。团队利用这些信息不断训练智能体,优化提示逻辑,扩展知识库。随着时间的推移,智能体逐渐发展出了“自我学习和系统化新知识”的能力。
关注工作流程而非智能体本身,可以使团队在适当的时间点应用适当的技术,这一点在重组复杂、多步骤的工作流程时尤为重要。以保险行业为例,调查类工作流程(如理赔和承保)通常涉及多个步骤,每一步所需的技能和认知能力各不相同。如果企业能够巧妙地结合规则驱动系统、分析型AI、生成式AI和智能体,并以统一的协同框架(如AutoGen、CrewAI、LangGraph等开源框架)作为底层支持,就可以真正实现对流程的重塑。在这个过程中,智能体扮演了“协调者和整合者”的角色:它们调用工具,将不同系统的输出集成到自己的工作环境中,像“胶水”一样连接整个工作流程,确保流程闭环,减少人工干预。
智能体并非万能的解决方案。
毋庸置疑,AI智能体的能力强大,但它们并不是解决所有问题的万能钥匙。很多领导在引入智能体时,常常忽略了任务的本质,没有冷静地思考“智能体是否真的适合”。为了避免资源的浪费或不必要的复杂化,企业可以借鉴评估高绩效团队成员的方法来审视智能体。主要考虑三个问题:工作的真实性质是什么?人类成员与AI智能体各自的优势在哪里?如何通过合作达到最终的目标?实际上,很多业务挑战并不一定需要智能体,基于规则的自动化、预测分析,甚至是大语言模型的提示工程,通常更加直接和可靠。
在决定引入智能体之前,领导者需要评估任务的需求,具体来说,需要明确三方面的问题:流程需要多高的标准化?变量的波动程度如何?哪些环节最适合交给智能体处理?这些问题在实际操作中并不难解决。例如,像投资者开户、监管披露这样的“低变量、高标准化”流程,规则明确,逻辑清晰。在这种情况下,使用不确定的大语言模型来构建智能体会增加复杂性和不确定性,而不是创造价值。然而,在“高变量、低标准化”的环境中,智能体则能展现出其真正的实力。一家金融服务公司就是利用智能体来提取复杂的财务信息,不仅减少了人工审核的工作量,还优化了整个流程。这类任务通常涉及到信息整合、合规分析和多次验证,正是智能体的强项。
[此处为图片1]
选择AI工具的高级经验法则
在为不同的任务选择合适的AI工具时,可以遵循以下原则:
- 如果任务的规则固定、重复性高,且输入数据为结构化形式(如数字录入),建议使用基于规则的自动化工具。
- 如果输入数据是非结构化的内容(如长篇文档),但任务本质上属于信息提取或内容生成,可以考虑使用生成式AI、自然语言处理或预测分析工具。
- 如果任务需要根据历史数据进行分类或预测,推荐使用预测分析或生成式AI工具。
- 如果输出结果需要综合判断、分析或创造性解读,应选择生成式AI。
- 如果任务涉及多步骤决策,且输入与情境高度多样化,最适合使用AI智能体。
值得注意的是,不要陷入“要么用、要么不用”的二元思维。有些智能体适合执行单一任务,有的则擅长提高人的效率,而很多时候,其他技术解决方案可能更为合适。关键在于找到最匹配的工具或智能体,设计良好的人机协作模式,并明确如何使智能体与员工形成最佳组合。真正的价值往往来源于人、智能体与工具之间的默契配合。
杜绝“AI低质输出”:投入评估,赢得信任
在智能体的实际应用过程中,最常见的问题是:在演示阶段表现得非常出色,但一旦进入真实的环境,却让用户体验大打折扣。员工对“AI低质输出”(AI slop)的不满十分普遍,这导致了信任的快速流失和使用率的下降。自动化带来的效率提升,往往因为信任的缺乏和质量的下降而被抵消。这个问题反复出现,给企业带来了明确的教训:应该像培养员工一样,认真“培养”智能体。正如一位领导所说:“引入智能体更像是招聘新员工,而不仅仅是安装软件。”智能体需要明确的“岗位职责”、系统的“入职培训”,以及持续的反馈,以便不断优化和提高表现。
创建高效的智能体并非易事,需要汇集专家的经验,为特定任务设定详细的评估标准,并将最佳实践转化为可操作的规范。这些规范不仅是智能体的“培训手册”,也是绩效考核的标准,确保其表现始终符合预期。有时候,这些规范被纳入标准流程,有时候则体现在一线员工的经验中。关键在于提炼出顶级表现者与普通人的区别。例如,在销售场景中,顶级销售人员通常能够巧妙地引导对话、化解异议,并快速调整沟通策略。
评估类型
以下是评估AI智能体性能的一些常用指标:
- 端到端任务成功率:衡量在无需人工干预或升级处理的情况下,AI正确完成任务流程的比例,直接反映了其在实际应用中的实用性和稳定性。
- F1得分/精确率与召回率:用于平衡假阳性和假阴性,常用于有明确“是/否”结果的分类、提取或决策任务。
- 检索准确率:衡量AI在检索任务中,相对于基准事实集,找出正确文档、事实或证据的比例,对于检索增强型任务特别重要。
- 语义相似度:通过比较生成内容与参考内容在嵌入空间中的余弦相似度,评估语义的一致性。这种方法超越了表面的文字匹配,更注重AI在“意义”层面上的表现。
- 大语言模型判官:利用大语言模型作为评审工具,将AI输出与标准答案或人类偏好进行对比。在评估清晰度、实用性、推理严谨性等主观维度时,这种方法特别高效且易于扩展。
- 基于混淆矩阵的偏差检测:通过混淆矩阵对比不同用户群体的结果差异,以识别系统性偏差,例如某个群体的假阴性率明显偏高。
- 幻觉发生率:跟踪AI输出中“事实错误或无依据主张”的出现频率,这是确保智能体输出可信度的重要指标。
- 校准误差(置信度与准确率的偏差):检查AI的自信程度是否与其实际正确率相符,对于风险敏感型任务尤为重要。
更为关键的是,专家需要持续参与智能体的性能测试,而不是“上线后置之不理”。此过程通常要求专家针对特定输入逐项记录或标记期望及不期望的输出,对于复杂智能体,可能需要数千条这样的标注。只有这样,团队才能有效地量化智能体的表现,及时纠正偏差。例如,一家全球性银行在重新设计“客户身份验证(KYC)”和“信贷风险分析”流程时,采用了这种方法。当智能体提供的合规建议与人工判断存在差异时,团队会审查逻辑漏洞,优化决策标准,并进行重新测试。在一个具体案例中,智能体的初步分析显得过于宽泛。团队随后提供了反馈,并开发部署了额外的智能体,确保输出更加深入和有见地。一种有效的策略是连续提出“为什么”,促使智能体深入思考,逐层解析。这样做不仅提高了分析的质量,也增强了员工对智能体输出的信任。
确保每一步都是可追溯和可验证的
在小规模试验中,检查AI智能体的结果相对简单;然而,当涉及成百上千的智能体时,难度会大幅增加。更糟糕的是,很多企业仅关注最终结果,而忽略了过程中的细节。这意味着,一旦错误发生(在大规模部署中几乎是不可避免的),往往很难追根溯源。因此,明智的做法是在每个工作流程步骤中嵌入验证机制。通过内置监控和评估,团队可以在早期发现问题,修复逻辑,从而实现智能体上线后的持续优化。例如,一家另类法律服务公司的产品团队发现,处理一批新案件时,系统的准确性突然下降。由于他们从一开始就集成了可观测性工具,能够逐步追踪流程,团队迅速找到了问题的根源:某些用户提交的数据质量不高,导致智能体的解释出现偏差,进而产生了质量较差的建议。确定问题所在后,团队改进了数据收集方法,为上游相关方提供了文档格式指南,并调整了解析逻辑,使系统性能迅速恢复正常。
最佳实践在于复用
在推动AI智能体快速实施的过程中,许多企业倾向于“每个任务创建一个智能体”,导致重复建设和资源浪费。实际上,同一个智能体可以覆盖多个具有类似操作(如摄取、提取、搜索、分析)的任务。问题在于,企业应在这两种策略——“通用复用型智能体”和“单一任务智能体”——之间如何分配资源?这类似于IT架构中的经典难题,既要快速部署,又不能因为短期选择而限制未来的灵活性。一个好的开始是识别重复性任务。企业可以围绕这些共同点,开发可在不同工作流中轻松复用的智能体和组件,降低开发者的使用门槛。例如,集中构建一套已验证的服务(如大型模型的可观测性工具、预批准的提示词库)和资产(如应用模板、可复用代码、培训资料),便于人员查找和使用。更重要的是,将这些能力整合到统一平台中至关重要。实证表明,这种整合通常可以减少30%至50%的不必要的工作。
人类依然不可或缺,但其角色和数量会发生变化
随着AI智能体的广泛应用,人类的角色成为了讨论的焦点:一些人担忧岗位会被取代,另一些人则期待生产效率的提升。因此,关于人类在当前许多工作中的角色,观点存在分歧。
事实是,尽管智能体可以承担大量工作,且人机分工将持续演变,但人类在职场的核心作用始终无法被替代。例如,人类需要监督模型的准确性、确保合规、做出关键决策、处理特殊情形等。正如前面所提到的,智能体并非全能,有时仍需与人类及其他工具(如机器学习模型)协同工作。然而,随着智能体的应用不断深入,某些工作流程中的人力需求确实会减少。企业领导者必须像管理其他变革项目一样,稳妥推进转型,合理配置用于训练和评估智能体的人力资源。
另一个重要的教训是,企业必须主动重构工作流程,以促进人类与智能体的有效合作。否则,即使是最先进的智能体项目,也可能遇到“问题不易察觉、错误积累,最终导致用户抵触”的局面。
以之前提到的法律服务公司为例,团队在利用智能体优化法律分析工作流程时,明确规划了人类介入的具体时间和方式。例如,虽然智能体能够精确整理索赔项目和金额数据,但由于这些信息对案件的重要性,仍然需要律师进行复核确认。同样,智能体可以提供案件的工作计划建议,但最终决定不仅需要律师的审核,还要根据实际情况作出调整。此外,智能体被设置为自动突出显示“极端案例和异常情况”,以帮助律师做出更全面的判断。但最终签署文件、以个人职业资格为法律结论背书的,仍然是律师本人。在人机协作设计中,开发简单直观的用户界面是关键,这降低了人与智能体互动的难度。例如,某家财产和意外保险公司开发了交互式的可视化元素(如标注框、高亮显示、自动滚动),帮助审核员快速验证AI生成的摘要。当审核员点击关键信息时,系统会自动跳转到对应的页面并高亮显示。这种注重用户体验的设计,不仅节省了时间,减少了重复确认,还显著提高了信任度,最终用户的接受度接近95%。
AI智能体领域日新月异,未来还将涌现出更多的经验和教训。但可以确定的是,只有将“学习”作为核心理念并付诸实践,企业才能避免重蹈覆辙,加速前进的步伐。


雷达卡


京公网安备 11010802022788号







