人大经济论坛 › 论坛 › 新商科论坛四区（原工商管理论坛） › 商学院 › 创新与战略管理 › Mantis：基于解耦视觉前瞻的通用视觉-语言-动作模型，赋 ...

发帖

楼主: 16101020203

106 0

[学科前沿] Mantis：基于解耦视觉前瞻的通用视觉-语言-动作模型，赋能机器人精准执行指令 [推广有奖]

0关注
0粉丝

VIP1

学前班

80%

还不是VIP/贵宾

威望: 0 级
论坛币: 1500 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-9-6
最后登录: 2018-9-7

楼主

16101020203 发表于 2025-11-25 18:06:45 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

摘要

Mantis 是一种创新的视觉-语言-动作（VLA）模型，通过引入解耦视觉前瞻（DVF）机制有效缓解动作监督信号稀疏的问题。结合渐进式训练流程与自适应时间集成（ATE）策略，该模型在 LIBERO 基准测试中实现了高达 96.7% 的任务成功率，展现出卓越的指令执行能力与跨任务泛化性能，显著优于当前主流开源 VLA 模型。

一、引言

近年来，机器人学习在应对复杂异构环境中的多样化任务方面取得了重要进展，尤其体现在鲁棒控制策略的发展上。其中，视觉-语言-动作（VLA）模型作为关键方向之一，依托预训练视觉-语言模型（VLM），能够将自然语言指令与实时视觉输入融合，并转化为可执行的机器人动作序列。

然而，现有 VLA 方法仍面临一个核心瓶颈：低维的动作标签过于稀疏，难以充分指导具备高维感知能力的大规模 VLA 模型进行有效学习。这种监督信号与模型容量之间的不匹配，限制了其表征学习的深度和整体性能表现。

为缓解这一问题，研究者尝试引入视觉前瞻预测——要求模型不仅预测动作，还需生成未来的视觉状态。尽管此类方法提供了密集监督信号，但直接预测高维像素空间会带来大量冗余信息，分散模型对关键运动特征的关注，导致训练效率低下、微调收敛缓慢；另一种思路是压缩未来视觉状态为紧凑表征（如关键点轨迹），但压缩过程易丢失细微动态差异，形成信息瓶颈。此外，许多方法忽略了语言监督的重要性，削弱了模型对上下文的理解与逻辑推理能力。

针对上述挑战，由上海交通大学、复旦大学、南京邮电大学、中芯国际及博世集团联合研发的 Mantis 模型，在论文《Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight》中提出了一种新颖解决方案。该模型采用解耦视觉前瞻（Disentangled Visual Foresight, DVF）架构，利用元查询与扩散 Transformer（DiT）头协同预测未来视觉状态，从而分离动作生成与视觉预测的学习路径。通过残差连接将当前帧输入 DiT，使元查询自动捕捉帧间变化所蕴含的潜在动作模式，进而辅助显式动作输出。该设计减轻了主干网络的表征负担，同时保留语言监督以维持语义理解能力。

为进一步提升推理效率与动作稳定性，本文还提出了自适应时间集成（ATE）策略，衍生出 Mantis-ATE 变体，在保证性能的同时将推理步数减少 50%。Mantis 在人类操作视频、机器人演示数据以及图文对上完成预训练，经 LIBERO 仿真基准微调后达到 96.7% 的成功率，超越多个先进基线模型且收敛更快。在真实场景下的实验进一步验证了其在指令执行、未知指令泛化及多步推理方面的优越性，优于领先开源 VLA 模型 π?.?。

二、相关工作

2.1 视觉-语言-动作模型

随着视觉-语言模型（VLM）的快速发展，VLA 模型得以迅速演进。这类模型借助 VLM 强大的跨模态理解能力，实现从文本指令到机器人动作的端到端映射。然而，多数现有 VLA 框架存在语义理解退化问题：专用机器人数据的微调常破坏原始 VLM 中已建立的视觉-文本对齐关系，导致指令跟随能力下降。部分方法尝试通过添加辅助损失来保留语言监督，但这类隐式监督容易累积误差，且缺乏对未来状态的建模能力。

相比之下，Mantis 在引入视觉前瞻的同时，确保语言监督路径畅通，有效保持模型的语义解析与上下文推理能力，避免功能退化。

2.2 视觉增强的动作学习

为了弥补动作监督的稀疏性，研究者探索了多种视觉增强策略，主要可分为三类，如图 1 所示：

图 1 视觉增强的动作学习范式。（a）视觉前瞻：通过预测未来图像帧增强动作学习；（b）轨迹引导：使用压缩后的视觉轨迹作为监督信号；（c）潜在动作监督：基于帧间差异提取离散潜在动作进行辅助训练。

视觉前瞻：通过显式或隐式方式预测后续帧内容以辅助动作决策。显式方法通常依赖自回归图像令牌生成或可学习查询配合视觉解码器重建图像；隐式方法则联合优化视频生成与动作预测目标。然而，像素级重建包含大量无关纹理、光照等外观信息，易引发模型混淆物理运动与视觉变化，产生幻觉现象，且计算开销大、下游任务收敛慢。
轨迹引导：将视觉状态压缩为关键点轨迹或其他精简的几何表示，聚焦于核心物理运动信息。虽然提升了控制导向性，但压缩过程不可避免地造成细节丢失，形成信息瓶颈。此外，实际中关键点检测精度受限，噪声传播会影响最终动作精度。
潜在动作监督：先训练一个动作量化模块，从连续帧差中学习离散化的潜在动作标签，再让 VLA 模型预测这些标签并用于微调。此方法虽能提供结构化监督，但需额外训练独立模型，增加了系统复杂度与资源消耗。

不同于以上路径，Mantis 将视觉前瞻模块与主干网络解耦，既避免了高维像素重建带来的干扰，又保留了运动动态的关键信息，为动作预测提供更精准、高效的辅助信号。

三、方法学

本节首先介绍 Mantis 的整体架构设计，随后详述其渐进式训练方案与自适应时间集成机制。

3.1 模型概述

如图 2 所示，Mantis 模型由多个核心模块构成：骨干网络 P、连接器 c、DVF 头 D、动作头 π，以及两组可学习的查询向量——潜在动作查询 [LAT] 和动作查询 [ACT]。在每个时间步 t，模型接收语言指令 l 与当前视觉状态 o?（例如原始图像帧），并将 l 与 o? 同 [LAT] 组合成输入序列，经骨干网络 P 映射为特征表示 h?。随后，h? 与 o? 进行拼接，并送入连接器 c，用于生成适配 DVF 头 D 的条件输入，进而预测未来第 n 步的图像帧 o???（其中 n 表示当前帧与目标未来帧之间的时间间隔）。

图 2 左：渐进式训练策略——Mantis 分阶段融合多模态数据，实现稳定且均衡的优化过程；中：整体架构概览——集成骨干网络、DVF 头与动作头，DVF 头通过未来帧预测辅助潜在动作的学习，提升动作预测精度，同时语言监督保障骨干网络的语言理解与推理能力；右：自适应时间集成机制（ATE）——根据目标令牌与动态令牌的重叠程度，动态调节集成强度。

该结构设计避免了视觉-语言-动作（VLA）模型直接生成冗余视觉内容的问题。通过引入残差连接将当前帧 o? 输入至 DVF 头 D，使 [LAT] 查询专注于捕捉帧间动态变化（即视觉轨迹的运动模式），而非完整重建图像。这些动态信息反映了机器人执行动作时的显式视觉变化，能够为后续动作预测提供更精确的指导信号。

接下来，动作头 π 利用骨干网络输出，并结合 [LAT] 和 [ACT] 查询，生成未来 n 个时间步的动作序列。为了在训练过程中产生更密集的视觉预测并增强对多样化下游任务的适应性，本文还引入多间隔查询 [GAP]，将其插入到 [LAT] 前端，以支持不同时间跨度的未来帧预测（见图 3）。

图 3 展示了多间隔未来帧生成的可视化效果，体现模型在不同时间步上对未来场景的推断能力。

3.2 模型结构细节

1）VLM 骨干网络：
采用 Qwen2.5-VL 作为主干模型，其优势在于支持灵活的输入分辨率配置。例如，为主相机分配高分辨率输入以保留丰富空间细节，而对信息密度较低的腕部相机则使用低分辨率输入，在性能与计算效率之间取得平衡。

2）DVF 头：
选用 Sana 架构作为 DVF 头，这是一种高效的扩散 Transformer（DiT），集成了深度压缩自编码器。连接器部分包含 12 层 Transformer 编码器和一个投影层，负责将骨干网络输出的空间特征映射到 DiT 可接受的输入空间。该结构遵循 Qwen2.5 LLM 的设计原则，并采用双向注意力机制。值得注意的是，在实际动作推理阶段无需进行视觉预测，因此可移除 DVF 头以显著降低推理时的计算负担。

3）动作头：
借鉴现有研究，构建基于 DiT 的动作头结构。具体而言，可学习的动作查询首先通过因果注意力机制从输入特征和 [LAT] 中聚合上下文信息，随后由动作头逐步将高斯噪声去噪，最终输出连续 n 步的动作轨迹。

3.3 渐进式训练方法

若在预训练阶段直接混合视觉、语言与动作模态数据，容易导致模型偏向于学习最容易拟合的模态（如动作信号），或过度依赖主导模态（如语言），从而引发跨模态竞争和训练不稳定问题。为此，本文提出一种分阶段引入模态的渐进式训练策略，以实现更稳健的优化过程（参见图 2 左）：

阶段 1：多间隔视觉训练
首先利用无动作标注的人类操作视频（SSV2 数据集，共约 22 万条样本）进行训练，促使模型从视觉动态中自主推导出潜在动作表征，学习通用的操作技能与环境常识。此阶段冻结骨干网络参数（以保留其预训练获得的语言理解能力），仅解冻 DVF 头、[LAT] 和 [GAP] 查询，优化目标为 DVF 扩散损失。

阶段 2：视觉-动作联合训练
引入机器人演示数据集 DROID（包含 7.6 万条样本），设定固定时间步间隔以匹配动作块长度，确保视觉流与动作流在时间维度上对齐。此时优化目标为视觉预测损失与动作预测损失的加权和（权重系数 α=0.1）。本阶段解冻 [ACT] 查询，但仍保持骨干网络冻结。

阶段 3：语言监督下的多模态混合训练
联合使用多模态数据集与机器人演示数据，全面激活所有模块。解冻骨干网络，并对语言输出施加交叉熵损失，整体优化目标为视觉损失、动作损失与语言损失的加权组合。该渐进融合方式有效提升了训练稳定性，最终构建出具备强大多模态理解能力和视觉增强特性的基础模型。

3.4 自适应时间集成（ATE）

在推理过程中，尽管传统时间集成方法有助于提升运动平稳性，但其计算成本较高。为此，本文提出自适应时间集成（ATE）策略，可根据每一推理步的实际运动稳定性需求，动态调整集成范围与强度。

ATE 在每个推理时间步维护两类视觉补丁（见图 2 右及图 4）：

目标补丁：对应与语言指令语义最相关的图像区域。通过分析 Mantis 骨干网络中交叉注意力模块的文本-视觉注意力得分，选取注意力值最高的前 τ_target% 视觉令牌所在区域；
动态补丁：反映视觉变化剧烈的区域。将当前帧与前一帧划分为与视觉令牌对齐的局部补丁，计算各补丁在像素空间中的余弦相似度，并选择相似度最低的前 τ_dynamic% 区域作为动态关注区。

图 4 展示了 ATE 的可视化结果：注意力热力图颜色越深表示相关性越高，而余弦相似度热力图则相反，颜色越浅代表变化越大。实验设置中 τ_target=1，τ_dynamic=12。

在动态补丁机制中，系统实时捕捉机械臂及其末端执行器的运动状态，而目标补丁则聚焦于与当前指令相关的物体区域。当这两个补丁出现重叠时，表明需要执行如抓取等精细操作——此时激活时间集成模块以增强动作执行的稳定性；若两者无交集，则关闭该集成机制以节省计算资源、提升效率。基于此架构引入 ATE 模块的 Mantis 改进版本被命名为 Mantis-ATE。

四、实验

4.1 实现细节

1）基础配置：
Mantis 模型总参数量为 58 亿，具体分布如下：骨干网络占 37 亿，DVF 头部 14 亿，动作预测头 3 亿，VAE 部分 3 亿。模型中 [LAT] 的数量设置为 9，[ACT] 为 6，[GAP] 设定为 6×3，对应 1 至 6 个时间步的间隔。DVF 头部采用 30 步扩散过程，动作头则使用 10 步。训练过程中采用 AdamW 优化器，配置权重衰减为 0.1，并施加 0.5 的梯度裁剪阈值，借助 DeepSpeed 实现高效的分布式训练策略。

2）预训练配置：
第一阶段在 SSV2 数据集上进行预训练，时间步间隔从 1 到 6 中随机采样；第二阶段在 DROID 数据集继续预训练，视觉损失权重 α 设为 0.1；第三阶段则联合 DROID 与 38 个公开多模态数据集共同训练 1.5 个 epoch，实现跨任务知识融合。

3）微调配置：
在 LIBERO 基准上的下游任务微调过程中，沿用预训练阶段 1 和阶段 2 的学习率设置，共训练 30 个 epoch（不引入语言监督信号），视觉损失权重 α 保持为 0.1。最终评估时选取验证集中成功率最高的模型检查点作为最优结果。

4.2 仿真实验

在广泛使用的 LIBERO 基准上对 Mantis 进行性能评估。该基准涵盖 Spatial、Object、Goal 和 Long 四类任务，每类包含 10 个子任务，每个子任务重复测试 50 次，评价指标为成功率（SR）。实验选取了具备或不具备视觉增强能力的先进 VLA 模型作为对比基线，并同步比较其收敛速度表现。

1）核心结果：
Mantis 在四类任务中的三类取得最佳性能，平均成功率达到 96.7%，显著优于所有基线模型。其中，非视觉增强模型 π? 平均成功率为 94.2%，OpenVLA 为 76.5%；视觉增强类模型 UnifiedVLA 达到 95.5%，F1 为 95.7%。这一结果证明了 DVF 辅助机制在动作预测中的有效性。同时，整体来看，视觉增强方法优于非增强方法，说明密集视觉状态能够有效弥补稀疏动作信号的信息缺失。相比之下，ATM 表现较差，主要受限于视频跟踪生成的点轨迹精度不足，导致误差随时间累积。

2）收敛速度：
对比 Mantis 与四种代表性基线模型（包括非视觉增强 OpenVLA、视觉前瞻 UnifiedVLA、轨迹引导 ATM、潜在动作监督 UniVLA）在 LIBERO Spatial 任务上的训练收敛情况（共训练 20 个 epoch，每轮评估一次成功率）。实验结果如图 5 所示，Mantis 展现出快速收敛特性，与 OpenVLA 和 UniVLA 相当；而 UnifiedVLA 收敛最慢，在前 10 个 epoch 内成功率始终为零。这表明将前瞻预测与动作学习进行解耦设计，有助于提升优化效率和训练稳定性。

图 5 收敛速度对比。相较于 UnifiedVLA 等传统视觉前瞻方法，Mantis 显著更快地达到高性能水平，印证了解耦前瞻预测与动作学习对于高效训练的重要性。

4.3 真实场景实验

为验证语言监督在维持模型理解能力方面的作用，在 Agilex 平台上开展了真实环境下的实验（见图 6a）。设计了三个典型操作场景，每个场景包含 4 条域内（ID）指令用于测试基本指令跟随能力，以及 4 条域外（OOD）指令以评估泛化能力。后者要求模型具备一定的世界知识和算术逻辑推理能力（示例见图 6b）。

对比对象为当前领先的开源 VLA 模型 π?.?。两者均在相同三个场景的数据集上进行微调，但 Mantis 在整个流程中保留语言监督机制。每条指令执行 10 次，每次最多允许连续尝试 5 次，评价指标为平均成功次数。

图 6 真实场景实验。（a）Agilex 实验平台；（b）实验场景布局及指令示例（展示一条 ID 指令与其对应的 OOD 指令）；（c）Mantis 与 π?.? 在三个场景中 ID/OOD 任务的平均成功次数对比；（d）场景 1 下两模型在各单项任务中的成功次数分布。

实验结果显示：Mantis 在所有场景下的 ID 与 OOD 指令任务中均优于 π?.?，展现出更强的指令解析、未知任务适应以及核心推理能力。相反，π?.? 的指令跟随表现一般，且几乎无法处理 OOD 指令。该结果证实了语言监督在保持骨干网络语义理解与推理功能方面的关键作用。此外，部分实验中启用了 DVF 头来生成未来帧序列（见图 7），最终生成图像与实际终端状态高度一致，进一步验证了 DVF 在优化动作决策过程中的有效性。

图 7 生成未来帧可视化。所生成的最后一帧图像与真实最终状态高度吻合，表明 DVF 能够准确建模复杂操纵任务中的状态演化过程，从而有效支持动作规划。

4.4 消融实验

1）ATE 分析：

在 LIBERO 的四类任务上对标准 Mantis（TE）与 Mantis-ATE 的推理效率进行了对比，评估指标包括推理次数（IC，数值越低表示效率越高）和成功率（SR），实验参数设置为 τ_target=1、τ_dynamic=12。结果表明，Mantis-ATE 的推理次数减少了近 50%，同时保持了与原方法相近的成功率，显著提升了整体推理效率。

为进一步验证 DVF 模块的作用，设计了四种变体进行消融实验：vanilla-DVF、flawed-DVF（移除残差连接）、no-DVF（仅保留动作头）以及 pretrained-DVF（在人类与机器人视频数据上进行预训练）。在 LIBERO 四类任务上的评估结果显示，pretrained-DVF 表现最优，平均成功率达到 96.2%；其次是 vanilla-DVF（95.7%）、flawed-DVF（94.4%），而 no-DVF 最低，为 91.3%。由此得出三点结论：① DVF 能有效促进动作学习；② 残差连接有助于模型更准确地捕捉潜在的动作模式；③ 基于真实视频的预训练进一步增强了 DVF 的性能表现。

针对语言监督的影响，研究在多模态基准上评估了 Mantis 的理解与推理能力，并在真实场景中测试了无语言监督版本 Mantis-LU。实验发现，Mantis 在三分之二的多模态基准任务中表现最佳，仅略逊于原始骨干网络；而 Mantis-LU 在分布内（ID）指令下仍具备一定执行能力，但在分布外（OOD）指令上的表现急剧下降，充分说明语言监督对于实现指令泛化具有关键作用。

结论、局限性与未来工作

本文提出了集成解耦视觉前瞻模块（DVF）的 Mantis 框架。仿真实验表明，DVF 不仅提升了模型性能，还加快了收敛速度；真实场景实验则验证了语言监督在复杂指令理解中的有效性。当前方法存在一定局限：由于未引入机器人状态信息，在实际部署中可能出现轻微的运动回滚现象。未来工作将探索融合 3D 点云等更丰富的感知输入，并进一步优化推理效率。

补充说明

6.1 自适应时间集成（ATE）补充

ATE 方法将输入图像划分为 18×18 的补丁网格，实验中默认设定 τ_target=1、τ_dynamic=12。复杂度分析显示，动态补丁识别与目标补丁选择所引入的额外计算开销远低于主干网络本身的运算量，因此 ATE 可在几乎不影响精度的前提下，减少超过 40% 的推理次数，实现高效的加速效果。

6.2 实现细节补充

视觉输入方面，视频帧及主相机图像被裁剪并调整至 512×512 像素，腕部相机图像则处理为 256×256 像素。训练策略分为三个阶段：阶段 1 和阶段 2 采用余弦退火学习率调度，包含 500 步预热期，基础学习率为 1e-4，最低降至 1e-5，共训练 1 个 epoch；阶段 3 使用固定学习率 1e-5。损失权重设置为：视觉损失 α=0.1，语言损失 β=0.005。语言监督数据来源于 LLaVA-OneVision-1.5-Instruct 的指令微调集，共选取 38 个样本，涵盖视觉问答、OCR 等通用任务，排除涉及图表解析或医学影像等专业领域的内容。

6.3 真实场景实验补充

三个真实场景中的 ID 与 OOD 指令覆盖世界知识、算术推理、人类意图理解等多个维度。每个场景收集了 100 条遥操作演示数据（每项任务 25 条）。Mantis 与 π?.? 均经过 10 个 epoch 的微调，其中 Mantis 额外利用 LLaVA-Instruct 数据集进行语言监督训练。单任务成功率统计显示，Mantis 在 ID 与 OOD 指令下均显著优于 π?.?。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Ant 机器人 Man Tis transform

返回列表

发帖

本版微信群

扫码
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[学科前沿] Mantis：基于解耦视觉前瞻的通用视觉-语言-动作模型，赋能机器人精准执行指令 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

摘要

一、引言

二、相关工作

2.1 视觉-语言-动作模型

2.2 视觉增强的动作学习

三、方法学

3.1 模型概述

3.2 模型结构细节

3.3 渐进式训练方法

3.4 自适应时间集成（ATE）

四、实验

4.1 实现细节

4.2 仿真实验

4.3 真实场景实验

4.4 消融实验

结论、局限性与未来工作

补充说明

6.1 自适应时间集成（ATE）补充

6.2 实现细节补充

6.3 真实场景实验补充

扫码加我拉你入群

浏览过的帖子

浏览过的版块

本版微信群

[学科前沿] Mantis：基于解耦视觉前瞻的通用视觉-语言-动作模型，赋能机器人精准执行指令 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

摘要

一、引言

二、相关工作

2.1 视觉-语言-动作模型

2.2 视觉增强的动作学习

三、方法学

3.1 模型概述

3.2 模型结构细节

3.3 渐进式训练方法

3.4 自适应时间集成（ATE）

四、实验

4.1 实现细节

4.2 仿真实验

4.3 真实场景实验

4.4 消融实验

结论、局限性与未来工作

补充说明

6.1 自适应时间集成（ATE）补充

6.2 实现细节补充

6.3 真实场景实验补充

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群