摘要
Dingtalk-DeepResearch 是阿里巴巴钉钉工业大脑团队推出的企业级统一多智能体智能框架,主要解决企业在深度研究、异构表格推理及多模态报告生成方面的需求。区别于传统的静态架构,该框架通过熵引导的记忆感知在线学习机制实现智能体的动态进化,结合DingAutoEvaluator自动化评估引擎,构建了“评估-反馈-优化”的闭环能力。目前,这一框架已应用于企业级文档智能工作流,并计划作为钉钉内置服务对外开放。本文基于官方论文(arXiv:2510.24760v1),详细解析其技术架构、算法原理、创新价值及其应用表现。
产品官方介绍
2.1 产品定位与核心目标
Dingtalk-DeepResearch 定位为企业级自适应智能框架,旨在应对企业数据来源多样(长文档、半结构化表格、知识图谱、多媒体)、查询需求复杂(跨域多跳推理、上下文关联)以及部署要求严格(隐私安全、业务流程集成)等问题,提供端到端的智能研究与决策支持。其目标是使AI从被动响应转向主动执行,成为企业员工的智能助手。
2.2 整体架构
该框架采用了三层架构设计,包括智能体编排、核心能力引擎和多模态数据支撑三个层面:
- Agent Studio(智能体编排层):提供专业智能体和可定制个人智能体。专业智能体适用于深度研究、表格处理、数据分析等核心场景;个人智能体允许用户根据自身业务需求自定义功能,实现个性化协作。
- Core(核心能力层):作为框架的“大脑”,集成了上下文压缩、推理规划、工具使用、长短期记忆、人类在环控制等功能模块,支持代码执行、网络搜索、多模态处理等能力,并能与钉钉生态系统紧密集成,如文件、消息、任务的关联,在获得授权的情况下安全访问企业私有数据。核心驱动部分采用经过CPT、SFT、RL多阶段训练的大规模语言模型。
- Data Layer(数据支撑层):作为统一的数据基础,包含知识图谱、Redis缓存、多模态数据库等,整合了企业业务数据、行业数据、个人工作数据及通用数据,实现了跨源数据的智能关联与检索。
该架构的优势在于其“模块化可扩展”性和“生态原生集成”特性,不仅支持单个智能体独立运作,还能通过多个智能体协同完成复杂任务,同时借助钉钉生态系统降低了企业的部署难度。
2.3 与主流框架的差异化定位
| 框架 | 核心优势 | 局限 | Dingtalk-DeepResearch 差异化 |
|---|---|---|---|
| OpenAI Deep Research | 高效整合公共信息 | 私有数据集成能力弱,动态优化不足 | 安全接入企业私有数据,支持动态进化 |
| Anthropic Claude Workbench | 高度的安全性和可控性 | 缺乏自动化评估与闭环优化 | DingAutoEvaluator 驱动的持续优化 |
| Google Gemini Deep Research | 强大的大规模公共数据处理能力 | 复杂表格处理和企业资源联动较弱 | 结构感知的表格推理,与钉钉业务流原生对接 |
核心算法原理介绍
3.1 多阶段文档强化学习(Documentary RL)
Dingtalk-DeepResearch 的算法体系围绕“自适应进化”与“多模态推理”两大核心构建,涵盖了四个关键技术模块,形成了从训练到部署的全链条技术支撑。以下是其五阶段训练流水线,旨在提高企业文档生成的准确性和结构化水平:
- 文档奖励模型(Doc-RM)训练:基于80万个手工标注的正负样本对进行训练,这些样本涵盖了企业报告、合规文档等多个场景,评估指标包括事实准确性、语义覆盖率、逻辑结构和呈现清晰度,为后续的强化学习提供奖励基准。
- 结构化格式SFT冷启动:在3200个精选样本上进行有监督微调,涉及Markdown演示文稿、复杂表格解析、多章节叙述和行业模板四种类型的结构化输出,确保生成的内容符合企业的格式标准。
- 静态文档库RL:利用Doc-RM作为奖励函数,在跨行业的离线文档库上进行强化学习,优化内容覆盖度、事实正确性和逻辑连贯性,建立稳定的基础能力。
- 实时文档RL:设计了10000个时间敏感型查询(例如金融新闻、政策更新),结合实时搜索和网页抓取数据进行训练,通过自定义的奖惩机制加强时间和信息的准确性。
- 用户交互在线DPO:收集用户对模型输出的编辑和修改记录,构建偏好数据对,通过直接偏好优化(DPO)使模型能够适应用户的个性工作风格和需求。
3.2 熵引导的记忆检索在线学习
这一机制是框架实现“无需微调LLM即可进化”的关键所在,通过外部情境记忆库和熵引导策略平衡经验利用与探索:
- 记忆存储:将历史任务轨迹、成功案例和失败经验存储在外部记忆库中,每条记录都关联着一个Q值(任务适应度评分)和语义特征。
- 熵引导检索:针对当前任务,通过调整温度参数的概率分布从记忆库中选取案例——高Q值案例确保经验的有效利用,而通过熵值控制的随机抽样则鼓励探索多种解决方案,防止过拟合。
- 在线更新:随着新任务的完成,不断更新记忆库中的内容,确保智能体能够持续学习并适应新的挑战。
每次任务完成后,系统会自动将结果更新到记忆库,并重新训练检索策略,从而实现“越用越聪明”的自适应效果。此外,系统还会通过用户画像记忆来构建个性化能力。
3.3 结构感知的异构表格处理
为了满足企业在处理大量半结构化表格时的推理需求,我们设计了“解析-理解-推理-验证”四步流程,解决了传统模型在表格结构识别和语义关联上的不足:
数据摄入
保留表格的原始布局,构建层级化表示(包括表头、合并单元格、子表格关系)。同时,将表格存储在关系型数据库和文本知识库中,支持符号查询和向量检索双重能力。
结构解析
使用多模态检测器来区分表头和内容单元格,推断列类型(离散/连续/非结构化),识别嵌套子表格,并生成增强型 schema 标注。
语义理解
将用户的查询分解为文本和表格子查询,通过嵌入相似度和类型标注实现查询术语与数据库 schema 的精准对齐。
符号推理与验证
调用 NL2SQL 生成可执行语句,结合 DingAutoEvaluator 的反馈优化 schema 关联和复杂连接逻辑。通过 SQL 执行结果和文本检索证据的交叉验证,确保推理的准确性。
3.4 DingAutoEvaluator 自动化评估引擎
作为数据飞轮的核心驱动,DingAutoEvaluator 实现了“不确定性挖掘-多维度评估-闭环反馈”的自动化流程。其评估指标体系涵盖了 RAG、LLM、推理、智能体框架、知识库五个阶段,具体如下表所示:
| 评估阶段 | 核心指标 | 指标描述 |
|---|---|---|
| RAG 检索阶段 | 上下文精度 | 评估检索内容与标准答案的相关性排序 |
| RAG 检索阶段 | 上下文召回率 | 标准答案内容可追溯至检索上下文的比例 |
| RAG 检索阶段 | 上下文相关性 | 检索内容与用户查询的语义关联度 |
| RAG 检索阶段 | 上下文充分性 | 检索内容是否包含回答查询所需全部信息 |
| RAG 检索阶段 | 知识冲突度 | 检测检索上下文中的事实矛盾与术语不一致 |
| 生成阶段 | 答案忠实度 | 生成内容与检索上下文的事实匹配度 |
| 生成阶段 | 答案相关性 | 生成内容与用户查询的语义契合度 |
| 生成阶段 | 语义相似度 | 与标准答案的语义匹配分数 |
| 智能体框架阶段 | 工具正确性 | 智能体选择工具与参数设置的准确性 |
| 智能体框架阶段 | 任务分解能力 | 复杂任务拆分为子任务的合理性与完整性 |
这些指标不仅用于离线评估,还作为实时流量监控信号,驱动模型与检索策略的持续优化。
四、关键创新点
相较于当前主流的 Deep Research 框架,Dingtalk-DeepResearch 的创新主要集中在“自适应进化能力”与“企业级落地保障”两大方面,形成了四大核心创新:
4.1 熵引导的轻量化在线进化机制
突破了传统框架依赖 LLM 微调实现能力升级的模式,通过“外部记忆库+熵引导检索”实现了轻量化进化。这种机制无需更新模型参数,仅通过记忆库迭代与检索策略优化即可提升推理性能,降低了企业在部署中的算力成本和迭代周期。实验结果显示,该机制使模型在跨领域任务中的适应速度提升了 5 倍,推理准确率提高了 18%。
4.2 DingAutoEvaluator 驱动的数据飞轮
构建了“不确定性案例挖掘-多维度评估-模型优化-效果验证”的闭环数据飞轮。通过模型不确定性监测,自动筛选出“灰色地带”输出(如低置信度推理结果),优先提交人工标注;利用多阶段评估指标生成细粒度反馈,分别用于 Doc-RM 优化、NL2SQL 微调与检索策略调整;优化后的模型与策略在实时流量中验证效果,形成持续迭代的良性循环。该飞轮使框架的事实错误率每月降低 22%,结构化输出合格率提升至 91%。
4.3 文档与表格的统一推理范式
解决了传统框架中文本生成与表格推理分离的问题,实现了两者的深度融合。通过结构感知表格处理模块,将表格数据转化为可解释的语义表示,与文本内容统一纳入推理流程,生成包含精准表格分析和自然语言解读的一体化报告。在企业供应链场景测试中,该范式使跨文本-表格的多跳推理准确率达到了 89%,远超传统模型的 62%。
4.4 钉钉生态原生的企业级部署能力
不同于通用研究框架,Dingtalk-DeepResearch 深度集成了钉钉生态能力。支持一键关联企业钉盘文件、聊天记录与审批流程,在企业权限体系下安全访问私有数据;提供符合企业办公习惯的输出格式(如钉钉文档、飞书表格兼容格式),并支持直接触发钉钉任务(如将分析结果同步至项目群),降低了用户的使用门槛。
五、性能表现与实验数据
论文基于 DeepResearch Bench(涵盖 22 个领域深度研究任务)和 ResearcherBench(科学研究能力评估)两大权威基准,将 Dingtalk-DeepResearch 与主流框架进行了对比,核心性能数据如下:
5.1 基准测试表现
DeepResearch Bench 得分:Dingtalk-DeepResearch 以 45.00 分位居第一,超过了 GPT-4o(44.64 分)、Gemini Deep Research(44.34 分)和 OpenAI Deep Research(43.44 分)。在金融报告生成、合规文档解析等企业场景中,其优势尤为明显。
ResearcherBench 覆盖度:框架的整体覆盖度达到 0.7032,超过了 Perplexity Deep Research(0.6929 分)和 Grok3 DeepSearch(0.6050 分),在数据密集型研究任务中表现出色。
企业场景实测效果
应用场景
| 核心指标 | Dingtalk-DeepResearch | 传统方案 | 提升效果 |
|---|---|---|---|
| 制造业供应链分析 - 表格推理准确率 | 89% | 62% | +27% |
| 企业财务报告生成 - 事实准确率 | 94% | 78% | +16% |
| 超市销售预测(Kaggle任务) - RMSLE | 0.3944 | 0.4626 | -14.7% |
| 多模态报告生成 - 生成效率 | 20分钟/份 | 2小时/份 | +83.3% |
结论与展望
核心结论
Dingtalk-DeepResearch利用“三层架构+四大核心技术”设计了一个专为企业环境定制的多智能体框架,有效解决了通用框架在私有数据整合、结构化输出及动态优化方面的局限性;其核心技术包括熵引导在线学习和DingAutoEvaluator数据循环机制,这些技术确保了系统的“轻量级进化”和“持续优化”,满足了企业的实际需求;在权威基准测试和实际企业应用中,该框架的表现超越了市场上的主要竞争对手,特别是在表格推理和文档-表格结合任务上表现出色,具有很高的实用价值。
未来展望
技术方向:计划进一步加强多模态融合能力,例如图像化报表的理解,提高多智能体之间的协作效率,以及改善长期任务的记忆管理。
生态扩展:将开放Agent Studio的自定义接口,允许企业开发特定行业的智能体,促进第三方开发者生态系统的建设。
场景深化:专注于金融、制造和零售等关键行业,开发针对性的解决方案,整合行业知识库和合规性规则。
参考文献
[1] 工业大脑团队,钉钉,阿里巴巴集团. 钉钉-DeepResearch: 企业环境中适应性智能的统一多智能体框架. arXiv:2510.24760v1 [cs.CL], 2025.



雷达卡


京公网安备 11010802022788号







