楼主: 龚可可
96 0

[论文求助] 【论文自动阅读】Mantis [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-4-23
最后登录
2018-4-23

楼主
龚可可 发表于 2025-11-26 18:44:46 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

一句话总结:
作者提出了一款名为Mantis的视觉-语言-动作(VLA)模型,通过“分离式视觉预判(DVF)”“渐进式多模态训练”和“自适应时间集成(ATE)”三大核心设计,有效应对现有VLA模型在动作监督稀疏、训练成本高、语言理解弱等方面的挑战,在模拟与真实机器人任务中展现出更高的成功率、更快的收敛速度以及更强的泛化性能。

[此处为图片1]

研究目标:
构建一个通用的视觉-语言-动作模型,能够在以下三方面实现平衡:高效的动作学习能力、强大的语言理解与推理能力、以及较低的训练与推理资源消耗。该模型需能够准确解析自然语言指令,结合视觉输入进行情境感知,并稳定执行对应动作,同时具备对未见过的任务场景和语言表达的良好泛化性。

面临的核心问题:
当前VLA模型存在四个关键瓶颈:

  1. 动作监督信号稀疏:低维的动作标签难以有效引导处理高维视觉信息的大规模模型,导致模型潜力无法充分释放;
  2. 视觉预测与动作学习耦合过强:直接建模未来视觉状态会使注意力分散、训练负担加重,而压缩视觉表征又易造成关键信息丢失,形成信息瓶颈;
  3. 缺乏语言监督机制:多数方法忽略语言数据的系统性利用,致使上下文理解和复杂指令推理能力薄弱,限制了对新指令的适应能力;
  4. 推理效率与动作稳定性难以兼顾:传统时间集成虽可提升动作连续性,但计算开销大,且无法灵活适配不同任务对精度与速度的需求。

解决方案与技术路线:

1. 分离式视觉预判(DVF)
将视觉动态预测从主干动作决策路径中解耦,引入基于元查询(meta queries)与扩散Transformer(DiT)的独立DVF模块。该模块以残差方式接收当前视觉帧作为输入,自主捕捉潜在的动作线索(如机械臂运动趋势),为动作头提供辅助信号,避免占用主网络容量,同时缓解信息瓶颈问题。

2. 渐进式多模态训练策略
采用三阶段训练流程,逐步融合视觉、动作与语言模态,防止跨模态干扰:

  • 阶段一:仅使用人类操作视频(SSV2)与机器人演示数据(DROID),训练DVF模块完成未来帧预测,专注于学习视觉动态规律;
  • 阶段二:加入动作标注数据,联合优化“视觉预测损失”与“动作损失”,实现“观察”到“行动”的映射融合;
  • 阶段三:引入38个图文数据集(涵盖VQA、OCR等任务)进行语言监督训练,解冻骨干网络参数,微调整体语言理解与推理能力,确保语义泛化性。

3. 自适应时间集成(ATE)
在推理阶段动态控制时间集成的启用与否:通过文本-视觉注意力机制识别与指令相关的区域(目标补丁),并结合帧间相似度检测动态变化区域(运动补丁)。当两者重叠时激活集成以保障操作精准性;否则关闭以节省算力,从而衍生出高效变体Mantis-ATE。

[此处为图片2]

方法基础与前人工作的继承关系:
本工作建立在多项前沿研究之上,并进行了关键改进:

  • 主干架构:采用Qwen2.5-VL作为基础模型[2],其具备优异的视觉-语言联合建模能力;
  • DVF模块设计:借鉴Sana中的高效DiT结构用于图像生成[48],并参考DiT去噪逻辑构建动作头[35];
  • 视觉增强动作学习范式:吸收“视觉预判”[43,55]、“轨迹引导”[44]、“潜在动作监督”[8,51]等思想,但突破了原有方法中视觉预测与动作学习纠缠的问题;
  • 时间集成机制:在传统Temporal Ensemble[56]基础上优化,提出可根据任务需求自适应开关的ATE策略;
  • 数据支撑:预训练依赖SSV2[18](人类行为视频)、DROID[24](机器人操作数据),评估采用标准基准LIBERO[28],均为领域内广泛认可的数据集。

实验设置与评估方案:

1. 评估方式

  • 模拟环境测试:在LIBERO基准上运行四大任务套件——Spatial、Object、Goal、Long,每项任务执行50次trial,以平均“成功率(SR)”为主要指标;
  • 真实世界验证:部署于Agilex机器人平台,涵盖3个实际场景,每个场景测试4条域内(ID)与4条域外(OOD)指令,每条重复10次,统计成功次数,并与主流开源模型π0.5[21]对比;
  • 消融实验:分别验证DVF模块(pretrained-DVF / vanilla-DVF / flawed-DVF / no-DVF)、ATE机制及语言监督的有效性;
  • 收敛速度分析:绘制Mantis与四类基线模型(非视觉增强型、视觉预判型、轨迹引导型、潜在监督型)在训练epoch上的成功率增长曲线。

2. 实验配置

  • 模型规模:总参数量58亿,其中骨干网络37亿,DVF头14亿,动作头3亿,VAE部分3亿;
  • 训练数据:包含22万段SSV2人类操作视频、7.6万条DROID机器人演示数据,以及38个覆盖VQA、OCR等任务的图文数据集;
  • 优化器设置:使用AdamW,权重衰减0.1,梯度裁剪阈值0.5,借助DeepSpeed实现分布式训练;
  • 学习率策略:阶段1与阶段2采用余弦退火学习率,阶段3使用固定学习率;
  • 推理参数:DVF头扩散步数设为30,动作头为10步;ATE判定阈值设定为τ_target=1%、τ_dynamic=12%。

[此处为图片3]

主要实验结果:

评估场景 关键表现
LIBERO模拟基准 平均成功率达96.7%,在3个任务套件中排名第一,优于UniVLA(95.2%)与UnifiedVLA(95.5%)等先进基线模型
收敛速度 相比四类主流基线模型,Mantis在更少训练epoch内达到更高成功率,显示出显著加速的训练进程
真实机器人任务 在Agilex平台上,面对域内外指令均表现出优异执行能力,成功次数明显高于π0.5模型
消融实验 移除DVF或禁用ATE会导致性能下降;完整语言监督对OOD指令泛化至关重要

综上所述,Mantis通过模块解耦、渐进训练与智能推理机制的设计,在保持低计算成本的同时实现了高性能的动作控制与语言理解,为下一代通用机器人智能提供了可行的技术路径。

真实世界实验结果显示,Mantis 在所有场景中的 ID/OOD 指令成功率均超过 π0.5,展现出卓越的 OOD 泛化能力。例如,在“将熊放到 3+5 的结果上”这类复杂指令中,模型成功率达到 90%,表明其具备较强的语义理解与跨任务迁移能力。

在模拟环境测试中,Mantis 在 LIBERO 数据集上实现了 96.7% 的成功率,显著优于现有基线模型。特别是在前 20 轮训练内即可快速达标,收敛速度远超纠缠式视觉预判模型 UnifiedVLA(其前 10 轮成功率为 0)。[此处为图片1]

Mantis-ATE 变体性能表现

通过引入自适应时间集成(ATE)机制,Mantis-ATE 在推理阶段的算力消耗降低达 50%,同时保持与标准版相当的成功率,有效解决了高稳定性与低延迟部署之间的矛盾,适用于资源受限的机器人系统。

消融实验分析

实验对比了不同配置下的模型表现:采用 pretrained-DVF 的版本平均成功率达 96.2%,而无 DVF 模块的对照组仅为 88.2%。此外,若缺失语言监督信号,OOD 场景下的成功率出现明显下降,说明语言引导对泛化至关重要。

存在问题与可借鉴点

存在的问题:
① 模型依赖 Qwen2.5-VL 作为骨干网络,尚未验证迁移到其他视觉语言架构的兼容性;
② 在真实环境中因未引入机器人自身状态反馈,偶尔出现轻微的动作回滚现象;
③ 尚未评估在复杂动态场景(如移动物体干扰)下的适应能力。

可借鉴的设计思路:
① 分阶段训练策略有效避免了多模态融合过程中的竞争冲突,适合处理复杂的多任务指令整合;
② 模块解耦设计将 DVF 与主模型分离,在增强辅助信息的同时保障核心任务的稳定性;
③ ATE 的“任务自适应算力分配”机制为边缘设备上的高效部署提供了可行方案。

作者结论分类(基于证据强度)

强结论(有充分实验证据支持):
- 分离式视觉预判模块(DVF)能有效提取潜在动作线索,显著提升 VLA 模型的动作预测精度和训练收敛速度;
- 渐进式训练策略可平稳融合视觉、动作与语言模态,避免跨模态干扰,同时保留原始的语言理解与逻辑推理能力;
- 自适应时间集成(ATE)在不牺牲性能的前提下,使推理效率提升 50%,兼顾了稳定性与计算成本;
- Mantis 在模拟与真实环境中均优于主流基线模型,具备出色的泛化性和指令遵循能力。

弱结论(缺乏充分实验支撑):
- 提出未来可通过引入 3D 点云等更丰富输入来提升性能——此为设想,尚无实验验证;
- 推理速度仍有优化空间——但未提供具体技术路径或初步数据支持;
- DVF 所谓“捕捉潜在动作”的机制虽有消融实验佐证,但缺乏对“潜在动作线索”的直接定量分析,仅通过未来帧可视化进行间接推断。

相关高相关性文献(按主题归类)

(1)VLA 模型基线(直接对比对象)
[6] π0: A vision-language-action flow model for general robot control —— 非视觉增强类最优强基线
[21] π0.5: A vision-language-action model with open-world generalization —— 真实世界开源主流基准
[25] OpenVLA: An open-source vision-language-action model —— 开源非增强型基线,用于收敛速度比较
[8] UniVLA: Learning to act anywhere with task-centric latent actions —— 潜在动作监督类基线
[43] UnifiedVLA: Unified vision-language-action model —— 纠缠式视觉预判基线,用于收敛性对比
[54] DreamVLA: A vision-language-action model dreamed with comprehensive world knowledge —— 视觉增强类强基线

(2)视觉增强动作学习方法(方法借鉴基础)
[35] DiT: Scalable diffusion models with transformers —— DVF 头部结构的核心架构来源
[48] Sana: Efficient high-resolution image synthesis with linear diffusion transformers —— DVF 所用 DiT 变体实现基础
[56] Temporal Ensemble: Learning fine-grained bimanual manipulation —— ATE 策略的原始灵感来源
[44] ATM: Any-point trajectory modeling for policy learning —— 轨迹引导类方法,用于对比分析
[55] CoT-VLA: Visual chain-of-thought reasoning for VLA models —— 视觉预判类基线参考

(3)骨干模型与数据集(模型构建与实验基础)
[2] Qwen2.5-VL technical report —— Mantis 所采用的 VLA 主干模型
[18] SSV2: The “something something” video database —— 人类操作行为预训练数据源
[24] DROID: A large-scale in-the-wild robot manipulation dataset —— 实际机器人操作演示的大规模数据集

LIBERO(Lifelong Benchmark for Robot Learning)是一个专为持续机器人学习中的知识迁移能力设计的模拟评估基准。该基准旨在系统性地衡量智能体在不断接收新任务时,能否有效利用过往经验提升学习效率和泛化性能。

该基准包含多个子集,涵盖了从基础操作到复杂语义任务的多样化场景,例如 LIBERO-Object、LIBERO-Spatial 和 LIBERO-100 等,分别测试对象识别、空间推理以及大规模任务序列下的持续学习表现。[此处为图片1]

通过引入标准化的任务序列、统一的环境接口和可复现的评价指标,LIBERO 为比较不同持续学习算法在真实机器人控制任务上的表现提供了可靠平台。其核心挑战在于如何在不遗忘旧技能的前提下,快速适应新任务,从而推动机器人在动态环境中实现长期自主学习。

此外,该基准基于高质量的物理仿真环境构建,确保了策略迁移至真实机器人时具备良好的可行性。整体设计强调任务多样性、语义复杂性和学习连续性,为未来持续机器人学习的研究设立了清晰的技术路线和评估标准。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Ant Man Tis manipulation Transformers

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-5 13:18