2025年7月北大与北大-灵初智能(Psibot)联合实验室论文综述
题为《A Survey on Vision-Language-Action Models: An Action Tokenization Perspective》的最新研究,系统梳理了视觉-语言-行动(VLA)模型的发展脉络,并提出了一种基于“动作标记化”的统一分析框架。
VLA 模型定义
视觉-语言-行动(VLA)模型指在接收视觉和语言输入的前提下,生成具体可执行动作的一类智能系统。其核心特征在于至少融合了一个大规模的视觉或语言基础模型作为支撑。
一、摘要概述
近年来,视觉与语言基础模型在多模态理解、推理及内容生成方面取得突破性进展,推动研究者尝试将此类智能延伸至物理世界交互任务中,从而催生了VLA模型的快速发展。尽管现有方法形式多样,本文作者发现,几乎所有主流VLA架构均可被纳入一个统一框架:
- 视觉与语言输入通过一系列VLA模块逐步处理;
- 过程中生成一条“行动标记链”,逐层编码更精确、更具操作性的指令信息;
- 最终输出可直接驱动执行器的动作命令。
图1:从动作标记化的视角提出的统一VLA框架。其中,“动作标记”泛指模型在迭代过程中产生的任何描述性中间指导信号,其概念超越传统的原始动作表示。
进一步地,作者指出:不同VLA模型之间的本质差异,并非来自整体结构设计,而是取决于如何定义与生成“行动标记”。据此,他们将当前主流的标记方式归纳为八大类别:
- 语言描述(Language):使用自然语言表达动作意图,例如“请拿起桌上的红色杯子”。
- 代码(Code):输出可运行的程序脚本,用于控制机器人完成复杂逻辑任务。
robot.pick_up(“red_cup”) - 可供性(Affordance):识别物体提供的功能可能性(如“可抓取”、“可旋转”),以此引导行为决策。
- 轨迹(Trajectory):规划机械臂关节或末端执行器的空间运动路径点序列。
- 目标状态(Goal State):设定任务完成后期望的世界状态(如“盒子已放置于托盘上”),由系统自主推导实现路径。
- 潜在表示(Latent):在高维抽象空间中编码动作信息,通常作为神经网络内部的紧凑表达。
- 原始动作(Raw Action):直接输出底层控制信号,如电机扭矩、速度指令等。
- 推理(Reasoning):在生成最终动作前,先进行多步思维链推演,例如“首先定位目标物体,然后判断抓取角度……”。
目前对“动作标记”的理论认知仍显零散,缺乏系统性总结,这严重制约了VLA技术的有效演进方向。因此,本综述旨在以“动作标记化”为核心视角,对现有工作进行分类解读,提炼各类标记的优势与局限,并指明未来优化路径。
图3:基础模型、VLA模型及相关数据源的演化时间线。U形趋势反映出VLA领域的兴起正是建立在基础模型能力提升与高质量数据积累的基础之上。
二、执行摘要:五大维度展望
本研究从思想、技术、系统、生态与伦理五个层面,提出对未来VLA发展的战略性思考。
2.1 动作标记:VLA统一框架的核心基石
所有VLA模型的本质,都是围绕“如何将高层语义转化为低层动作”这一问题展开。而“动作标记”正是连接感知与行动的关键媒介。不同的标记类型代表了不同程度的抽象层级与执行粒度,构成了整个系统的语义桥梁。
2.2 核心趋势:由“单一标记”迈向“融合协同”
最具洞察力的观点是:未来的领先VLA系统不会依赖某一种最优标记,而是通过对多种标记的战略性组合来实现更强泛化能力——这是一种典型的“系统工程”思维转变。
- 语言虽难以直接驱动硬件,但在高层任务分解与语义规划中不可替代。
- 代码被视为解决长周期、高复杂度任务的关键路径。其潜力发挥依赖于构建一个集成了感知、推理与动作调用能力的通用代码库,使模型能像调用API一样灵活操控机器人。
- “可供性-轨迹”黄金组合:这是本次调研中的关键发现之一。
- 可供性回答“做什么”——识别环境中可交互的对象及其属性;
- 轨迹回答“怎么做”——生成具体的运动路径。
- 世界模型的支持作用:通过预测动作执行后的结果状态(即目标状态),世界模型为“可供性-轨迹”生成提供反馈锚点,增强规划合理性与鲁棒性。
- 潜在表示与原始动作:代表端到端学习的理想终点,即从输入直接映射至控制指令。但由于训练成本高、数据稀缺,尚属长期探索方向。
- 推理作为“元标记”:这是理念上的升华。推理不再是一种独立动作形式,而是赋能其他所有标记类型的增强机制。它可以从纯语言推理发展为基于动作标记的推理,并结合实时环境反馈动态调整策略。
2.3 架构演进:分层设计通向端到端愿景
高效的VLA系统预计将采用分层架构:
- 顶层负责宏观调度,利用语言描述与代码实现长期任务规划与逻辑控制;
- 短期下层则聚焦于运动生成,集成视频预测(目标状态)、流形建模(轨迹)与3D交互预测(可供性),形成中间层次的运动表征,最终映射为原始动作;
- 长期愿景是下层完全端到端化,能够从子任务级输入直接预测原始动作序列。
无论架构如何演变,推理能力都将根据需要嵌入各层级,成为提升系统智能水平的核心组件。
2.4 学习范式转型:从模仿学习走向强化学习
当前多数VLA系统依赖模仿学习,即通过人类示范数据训练模型复现行为。然而该范式存在明显局限:
- 泛化能力弱,难以应对未见场景;
- 数据获取成本高昂;
- 无法自动优化性能。
未来发展方向将逐步转向强化学习,结合仿真环境进行大规模试错训练,使模型具备自我改进与适应能力,真正迈向自主智能体。
三、总结与展望
本文不仅提供了对VLA领域现状的全面回顾,更重要的是提出了以“动作标记化”为中心的统一分析视角。通过将多样化的方法归类为八种标记类型,并深入剖析其组合逻辑与演进趋势,为后续研究提供了清晰的技术路线图。
最终,VLA的发展不应局限于模型本身,而应扩展至包含记忆机制、反思能力、持续学习的主动智能体构建;同时必须正视数据、算力与硬件平台之间的协同发展瓶颈;在快速推进的同时,也需高度重视安全机制与价值对齐,确保技术服务于人类福祉。
强化学习的未来:试错与探索
当前的智能系统大多只能模仿训练数据中出现的行为,缺乏应对新情境或进行创造性决策的能力。这种局限性源于其对已有经验的依赖,难以泛化到未知场景。而要实现更高层次、更接近人类水平的智能,关键在于引入试错与探索机制——让模型在交互中主动学习,而非被动响应。
挑战与应对策略
主要挑战:在真实机器人平台上直接应用强化学习(RL)存在多重障碍:成本高昂、训练效率低下,并可能带来安全隐患。
解决方案:一方面需要发展更高效的强化学习算法;另一方面,可借助视觉语言模型(VLMs)自动生成奖励函数,从而显著加快训练进程,降低人工设计成本。
2.5 系统演进:从模型到智能体
VLA模型通常表现为一种被动系统,仅对单次输入请求生成一次动作输出,不具备持续性认知能力。
相比之下,VLA智能体则是一个具备主动性与持续性的认知架构。它拥有更强的记忆力、规划能力、环境探索能力和自我反思机制,能够有效增强“感知-行动”闭环的鲁棒性和适应性。
架构转变要求:为支持上述能力,系统需从当前主流的线性处理流,转向更为复杂的、包含反馈回路的图结构,以实现信息的循环利用和动态调整。
2.6 发展的基石:模型、数据与硬件的协同进化
现状分析:目前多数VLA研究受限于实验室环境,面临数据稀缺和硬件平台单一或封闭的问题,导致模型无法接触真实世界的多样性与复杂性。
核心观点:技术进步不能仅依赖模型优化。真正的突破必须来自模型、数据与硬件三者的协同演进:
- 更先进的硬件能采集更丰富、多样化的交互数据;
- 高质量的数据集支撑更强大、泛化能力更强的模型训练;
- 而高性能模型又能驱动更复杂、灵活的硬件系统运行。
这一正向循环是推动VLA领域走向实用化的根本动力。
2.7 安全与对齐
在追求智能体能力提升的同时,报告强调了一个不可忽视的重点:安全性和人类价值观的对齐必须被置于研发优先级的核心位置。否则,高度自主的VLA智能体可能会引发难以预测的风险,甚至失控。
三、引言
大型语言模型(LLMs)在自然语言理解、逻辑推理与文本生成方面表现卓越,已成为众多文本驱动应用的核心引擎。
视觉基础模型(VFMs),如CLIP、DINO和SAM,在多种视觉任务中展现出强大的跨任务泛化能力。
视觉语言模型(VLMs),例如GPT-4o、Gemini 2.5 Pro和Qwen2.5-VL,融合了视觉与文本模态,实现了多模态的理解与生成能力。
视觉-语言-行动模型(VLA)的提出,正是为了弥补LLMs、VFMs和VLMs局限于数字世界的缺陷,旨在将这些智能能力延伸至物理世界,实现真正意义上的具身智能。
早期VLA实现的四大流派
1. 高层规划派(语言/代码)
代表模型:SayCan, PaLM-E, Code as Policies
核心思想:利用大语言模型强大的语义理解和高层推理能力,生成抽象的任务执行计划。
动作标记形式:使用自然语言描述或可执行代码作为动作指令。
工作流程:
- 由VLM/LLM接收视觉输入与语言指令,输出一个由自然语言或Python代码构成的行动计划;
- 该计划交由底层低级控制器解析并逐步执行。
特点:充分发挥LLM的知识广度与任务分解能力,适合处理复杂、多步骤任务。
2. 知识提取派(可供性/轨迹)
核心思想:不依赖LLM完成端到端规划,而是从预训练模型中提取对控制有直接价值的信息,如物体的可操作区域或运动路径。
动作标记形式:可供性图谱或粗略轨迹预测。
工作流程:
- 基础模型识别环境中可交互的区域(如壶柄、杯口),或预测大致的动作轨迹;
- 这些信息作为先验知识,指导传统控制算法进行精细化动作执行。
特点:轻量化设计,专注于挖掘模型中的空间感知与物理常识,适用于实时性要求高的场景。
3. 潜在表示派
核心思想:通过特定预训练方式,学习一种紧凑且语义丰富的“动作序列”潜在空间表示。
动作标记形式:潜在向量(latent representation)。
工作流程:
- 视觉语言模型负责预测目标动作的潜在编码;
- 一个专用的策略控制器将该潜在表示解码为具体的电机控制信号。
特点:属于折中路线,兼顾语义表达能力与执行效率,便于集成到现有控制系统中。
4. 端到端派
核心思想:坚信“规模法则”,即通过海量数据和超大规模模型,直接实现从感知输入到动作输出的端到端映射。
动作标记形式:倾向于使用原始动作指令(如关节扭矩、末端位姿等)。
工作流程:收集大量机器人交互数据,在大型VLM基础上训练模型,使其直接输出可执行的动作命令。
特点:是最理想化、最彻底的方案,但对数据质量和数量的要求极高,目前仍面临工程与算力挑战。
图 2:单个具身任务中动作 token 的可视化
在相同视觉与语言输入条件下,不同VLA模型会生成不同类型的动作 token。每种 token 承载着不同层级的执行指导信息,对应不同的生成与后处理策略。
任务输入
初始图像:包含茶壶、茶杯、杯垫等日常物品的桌面场景。
用户指令:“I am feeling thirsty. Please pour me a cup of tea and place the teacup on the coaster.”(我渴了,请给我倒杯茶并把茶杯放在杯垫上。)
八种动作标记详解
图中下方八行展示了从“抽象思考”到“具体执行”的连续演化过程,从左至右依次为:
-
语言描述
内容:“Pick up the teapot” → “Pour tea into the cup” → ...
解读:这是最抽象的表达形式,用自然语言列出子任务序列。它明确了“做什么”,但未涉及“如何做”。易于人类理解,但无法被机器人直接执行。
-
代码
内容:
Hand grasp (handle)arm.lift(lift_height)hand.move_to(cup_top)
3. 可供性
内容:展示了多种视觉标注,例如抓取点、放置区域等。
解读:直接标示出环境中可以进行交互的区域。比如,“茶壶手柄”被视为一个适合抓握的位置,“杯垫中心”则被识别为可用于放置物体的空间。模型输出的是交互的可能性,而不是具体的动作指令。
4. 轨迹
内容:利用箭头与路径点描绘机器人手臂在三维空间中的运动路线。
解读:提供从起点A到终点B的具体空间行进路径。这是对“如何执行”这一问题在几何层面上的描述,通常由运动规划模块生成。
AT = [0.2, -0.2, 0.1]
5. 目标状态
内容:呈现任务完成后的预期视觉结果图像。
解读:不关注实现过程,仅定义最终需要达成的视觉形态——例如茶杯稳定地置于杯垫之上。机器人需自行推导出通向该状态的动作序列。
AR = [15', 16', 22']
6. 潜在表示
内容:表现为一组抽象的马赛克图案或特征图谱。
解读:这是一种高度抽象、专为机器理解设计的表达形式。通过特定训练,将“倒茶”这类任务编码成一个紧凑的数学向量。该向量本身不具备直观语义,但可通过解码器转化为可执行的动作指令。
7. 原始动作
内容:可能包含平移和旋转的向量信息。
解读:属于最底层、最直接的电机控制信号。
AT 可能表示动作的线性位移分量,AR 则对应角速度或旋转操作。这些是直接发送至机器人关节或驱动单元的低级命令。
8. 推理
内容:“First I locate the teapot. Since ... The handle is a good grasp point...”(首先我定位茶壶。因为……手柄是一个理想的抓握位置……)
解读:体现模型内部的“思维链”。它并非实际执行的动作,而是生成决策前的逻辑推理过程。这种机制显著增强了模型行为的可解释性,并常有助于提升任务执行的成功率。
2. 手部抓握(手柄),手臂抬起(高度),手移动到杯口……
解读:将整个操作流程转化为可程序化执行的代码或API调用形式。相比自然语言描述,这种表示更加结构化且精确,明确了操作对象及其参数设定,能够被系统解释器解析并执行。
四、语言与视觉基础模型的演进
4.1 语言基础模型的技术演进:从架构革新到生态繁荣
语言基础模型的发展是由核心架构创新、训练范式的转变、规模扩展规律以及对效率和价值对齐持续追求共同推动的结果。其技术脉络可划分为以下几个关键阶段:
1. 架构奠基与早期探索
Transformer 的引入:一切始于Transformer架构的诞生。其核心技术——多头自注意力机制与编码器-解码器结构——为高效处理长序列数据和实现端到端生成提供了坚实基础。
双向编码器的发展:以 BERT 为代表,采用掩码语言建模等自监督任务,在海量无标签文本上预训练双向Transformer编码器,获得了强大的上下文感知能力,极大提升了各类NLP任务的表现。
此外,通用句子编码器(Universal Sentence Encoder)与 T5 模型分别采用编码器或编码器-解码器结构,致力于构建通用语义表征或将所有任务统一为“文本到文本”格式。
2. 自回归范式与规模定律
GPT 与仅解码器架构:GPT系列开辟了新路径,将所有任务视为“下一词预测”,并采用仅解码器(即自回归)的Transformer架构。
规模扩展的突破:GPT-3 将模型参数量与训练数据规模推向极致,不仅展现出卓越的语言生成能力,还涌现出如情境学习(in-context learning)等高级行为。这验证了“缩放定律”的有效性——即模型性能与模型大小、数据量、计算资源之间存在稳定的正相关关系,标志着大型语言模型(LLM)时代的正式到来。
3. 能力增强与价值对齐
从能力到意图对齐:为了使强大的LLM更好地遵循人类意图,InstructGPT 提出了监督微调(SFT)与基于人类反馈的强化学习(RLHF)相结合的方法论。此后,确保模型输出符合人类偏好、安全规范与伦理价值观成为研究重点。
推理能力的进化:先进模型如 OpenAI o1 和 DeepSeek-R1 引入了动态分配测试时计算资源的机制(一种“慢思考”策略),并结合大规模强化学习,专门优化复杂推理场景下的表现,显著提升了逻辑推理与问题解决能力。
4. 开源化与高效适配
开源模型的兴起:为应对闭源商业模型(如 GPT-4、Claude)在透明度与定制灵活性方面的局限,开源社区推出了 Llama、Gemma、Mistral 等一系列高质量开源模型,覆盖从20亿到700亿参数的不同层级。
高效微调技术的发展:参数高效微调方法,尤其是 LoRA(Low-Rank Adaptation),允许使用者仅更新少量新增参数即可完成特定任务适配,大幅降低部署与训练成本,加速了大模型的实际应用落地。
5. 架构创新与效率优化
扩展有效容量的新方式:专家混合模型(MoE),如 Mixtral,通过为每个输入动态激活部分子网络,在几乎不增加计算开销的前提下显著扩大模型的有效参数规模。
超越Transformer的尝试:针对Transformer在处理长序列时存在的二次时间复杂度问题,新型架构如 Mamba 被提出。其基于选择性状态空间模型(SSM),实现了线性时间复杂度的序列建模,在长上下文理解任务中表现优异。
系统工程的支持:在基础设施层面,借助数据并行、模型并行、流水线并行和张量并行等多种分布式训练策略,配合量化、剪枝、推测解码等优化手段,支撑起超大规模模型的高效训练与推理。
推理加速等技术的应用,确保了大语言模型(LLM)在训练与部署过程中的高效性与可行性。
总体来看,语言基础模型已演进为一个结构层次分明、生态系统多样化的技术方向。它们在知识理解、对话交互、代码生成以及逻辑推理等方面表现出色,同时具备成熟的训练、微调和部署体系。这一系列进展为构建更复杂的视觉系统、多模态智能乃至最终的具身智能——
视觉-语言-行动模型
——奠定了不可或缺的核心基础模块。
4.2 视觉基础模型的技术演进:从统一架构到通用能力
随着Transformer架构在计算机视觉领域的成功应用,该领域实现了从传统卷积神经网络(CNN)向视觉Transformer(ViT)的范式转移。这一转变推动了一系列强大视觉基础模型的发展,其技术路径可归纳为以下五个关键层面:
1. 基础架构革新:视觉Transformer
核心转变:
视觉Transformer(ViT)逐步取代CNN成为主流骨干网络。它将图像划分为一系列图像块,并以序列形式进行处理,从而统一了视觉与自然语言的数据表示方式。
关键意义:
这种统一的数据格式显著促进了后续多模态模型中跨模态信息的对齐与融合能力提升。
2. 通用视觉表征学习
基于ViT框架,研究者探索多种学习范式,旨在从海量无标签或弱监督数据中提取通用视觉特征。
基于文本监督的对比学习:
- CLIP:作为开创性工作,CLIP利用亿级图像-文本对进行对比学习,掌握了高度泛化且语义丰富的图像表征,展现出强大的零样本迁移能力。
- SigLIP:通过引入Sigmoid损失函数替代传统的Softmax,提升了训练效率与模型性能。
局限性:CLIP与SigLIP所学特征偏向高层语义,可能忽略像素级别的细节信息。
自监督学习:
- DINO:采用自监督策略直接学习视觉表示,能够捕捉细粒度的空间结构,适用于语义分割、深度估计等任务;同时具备理解深层语义关系的能力(例如识别“飞机翅膀”与“鸟翅膀”的相似性)。
技术优化:通过引入可学习的注册标记(learnable registration tokens),有效消除了ViT在密集预测任务中产生的特征图伪影,进一步提升了性能。
3. 面向专用任务的视觉基础模型
在通用表征模型的基础上,研究人员开发出针对特定感知任务的基础模型,实现即插即用的先进视觉功能。
- 分割一切:
SAM 及其升级版本 SAM 2 是可提示的通用分割模型,支持通过点、框等输入生成高质量掩码,并将能力扩展至视频场景。 - 开放词汇检测与定位:
GLIP 将CLIP式的图文对齐能力推广到区域级别。
Grounding DINO 系列基于DETR架构,在开放词汇目标定位方面表现优异。
Grounded SAM 系列结合定位与分割模型,实现了零样本语言驱动的图像/视频物体分割与追踪。 - 视频理解与追踪:
Cutie 提供鲁棒的视频对象分割能力。
SAMURAI 为SAM 2引入运动建模机制,增强视觉目标跟踪效果。
CoTracker 专注于长视频序列中的稠密点跟踪任务。 - 深度估计:
Depth Anything 系列利用大规模伪标签与合成数据,致力于实现鲁棒的单目深度估计。
4. 生成式模型与世界模型
扩散模型已成为高保真视觉内容生成的主流方法,部分先进模型因蕴含大量物理常识而被称为“世界模型”。
图像生成:
- 从 DALL-E 2、Imagen 到开源的 Stable Diffusion,均展示了强大的文本到图像生成能力。
- ControlNet 等模型通过引入空间控制条件,实现了对生成图像结构与布局的精确操控。
视频生成与动态模拟:
- VideoCrafter、PVDM 等将扩散机制拓展至时间维度。
- Sora 采用流匹配等先进技术,能生成时间一致性极佳的长视频,并隐式学习到物理规律先验。
- Genie 系列可根据动作指令预测未来视觉状态,模拟环境演化过程。
5. 面向机器人操作的专用感知模型
部分研究聚焦于为机器人提供可泛化、基础性的视觉感知能力。
- FoundationPose:统一框架下实现对未知物体的鲁棒6D姿态估计与持续跟踪。
- HaMeR:基于大规模数据集,从单目图像中准确恢复手部三维网格模型,服务于灵巧操作任务。

综上所述,视觉基础模型在通用表征学习、专用任务建模及生成能力方面提供了系统性解决方案。这些进步不仅极大推动了多模态学习的发展,也为众多现实应用场景赋能,构成了构建高级智能系统(如VLA模型)所依赖的关键视觉支柱。
4.3 视觉-语言模型
语言与视觉基础模型的协同发展,催生了一批能够深度融合图文信息的视觉-语言模型。其发展历程可分为以下几个阶段与主要流派:
1. 早期探索与架构创新
初期研究集中于如何有效连接视觉与语言两种模态。
- BLIP 系列:
BLIP 首次提出统一的多模态混合编码器-解码器架构,并设计“数据自举”策略,为社区贡献了高质量的图文配对数据集。
BLIP-2 确立了“冻结预训练模型 + 轻量级连接器”的高效范式,提出的Q-Former模块与两阶段训练策略,可在极低训练成本下实现图像编码器与大语言模型的有效对齐。 - Flamingo:
引入感知器重采样器(Perceiver Resampler)与门控交叉注意力机制,具备处理交错图文序列的能力,展现出卓越的少样本学习性能。
2. 架构简化与社区普及
随着技术成熟,研究趋势转向轻量化、易复现和可扩展的模型设计,推动视觉-语言模型在开源社区广泛传播与应用。

随着技术的不断进步,研究重心逐渐从复杂架构转向如何以更简洁、高效的方式构建高性能的视觉-语言模型(VLM)。这一趋势推动了多种轻量且强大的模型设计。
LLaVA 系列:简洁架构的典范
LLaVA 成为此路径上的关键里程碑。它通过仅使用一个简单的线性投影将 CLIP 视觉编码器与 LLAMA 大语言模型连接,并结合由 GPT-4 合成的指令数据,实现了令人瞩目的多模态理解能力。
在此基础上,LLaVA-1.5 进一步优化:采用 MLP 投影结构、更强的视觉编码器以及更大规模的训练数据集,再次验证了该简约设计路线的有效性。
设计原则的系统化提炼
Karamcheti 等人的研究对 VLM 架构的关键决策进行了系统总结,提出以下高效策略:单阶段训练、融合 DINOv2 与 SigLIP 的视觉特征,以及与纯文本语言数据协同训练。基于这些原则开发的 Prismatic VLM,在性能上已超越 LLaVA-1.5,标志着设计方法论的成熟。
功能拓展与专业化增强
在通用框架的基础上,部分模型专注于提升特定能力,如视觉定位、视频理解等。
Qwen-VL 系列:面向精准感知与时空建模
Qwen-VL 引入了位置感知的交叉注意力适配器和专门设计的边界框输入/输出接口,显著增强了图像中物体的视觉定位能力和图文交错内容的理解能力。
Qwen2-VL 则进一步引入2D RoPE 和M-RoPE 机制,提升了模型对不同分辨率图像及视频序列的时空建模能力。
Qwen2.5-VL 将动态分辨率处理扩展至时间维度,并优化时间对齐机制,从而支持长视频理解、精确物体追踪和鲁棒的文档解析等功能。
面向具身智能的 VLM 设计
一些模型被明确用于构建视觉-语言-行动(VLA)系统的底层支撑。
PaliGemma 是一个基于 SigLIP 和 Gemma 的 3B 参数轻量级 VLM,其核心设计理念强调可迁移性,并已被多个后续 VLA 模型(如 π? 系列)选为骨干网络。
能力前沿:闭源商业模型的引领作用
目前,VLM 的性能上限主要由闭源商业模型定义,它们展现了全面而强大的多模态能力。
GPT-4o 以其原生多模态交互能力著称,例如支持实时图像生成与跨模态流式响应。
Gemini 2.5 Pro 则在复杂推理能力方面表现卓越,并具备处理超长上下文的能力。
总结:VLM 发展的清晰脉络
VLM 的演进呈现出一条清晰路径:从早期复杂的专用架构,发展到高效的通用设计,再到针对特定任务的功能强化。开源社区的努力不仅降低了技术门槛,也逐步明确了核心设计原则;与此同时,闭源模型持续拓展能力边界。这些先进的 VLM 不仅是多模态人工智能的重要成果,更是实现下一代具身智能体的核心基石。
4.4 具身 VLA 模型:迈向具身 AI 的范式跃迁
当前主流的基础模型属于“数字AI”范畴,而未来发展的必然方向是“具身AI”。然而,这并非简单的技术迁移,而是目标野心与技术复杂度双重升级的根本性跃迁。
图 4: 展示关键人工智能领域相互关系的维恩图。VLA 模型处于数字 AI、硬件与机器人技术的交汇点,代表具身人工智能的核心子领域,也是通向通用人工智能的关键路径。
具身AI为何远比数字AI更具挑战?
1. 环境挑战:物理世界的无限开放性
数字AI的挑战:主要面对的是分布外或对抗性数据,问题空间相对封闭可控。
具身AI的挑战:物理世界本质上是开放且不可控的,即便是最常规的场景也充满不确定性。
实例包括:自由形式的人类指令、突发干扰(如猫穿过房间)、环境动态变化(倒下的椅子、杂乱布局)、普遍存在的遮挡等。
类比自动驾驶:作者认为自动驾驶是具身AI的一个子集,其难度已极高;而通用具身智能需应对数量级更高、情境更复杂的现实挑战。
2. 硬件挑战:智能必须拥有物理身体
根本差异:数字AI运行于纯软件环境,而具身AI必须与物理硬件(即机器人)深度耦合。
当前硬件的主要局限:
- 灵巧性不足:机械臂与末端执行器灵活性远低于人手,多数依赖简单夹爪。
- 形态多样且孤立:机器人平台种类繁多、互不兼容,缺乏统一标准。
- 感知能力缺失:缺少类似人类皮肤那样灵敏、全覆盖的触觉传感器。
核心洞察:由于硬件短期内难以达到理想水平,因此模型、数据与硬件必须协同进化——这是一个螺旋上升、持续迭代的过程。
五、动作标记的概念概述
VLA 模型的研究聚焦于利用基础模型,处理视觉与语言输入并生成动作输出。在架构设计与训练策略制定过程中,“VLA 模块”与“动作标记”的概念自然浮现。
为了将原始感知映射为可执行动作,VLA 模型需具备多项能力:理解场景与指令、将指令置于具体情境中、规划子任务、预测后续动作并生成实际操作指令。具身任务的高度复杂性与通用性,进一步要求这些能力之间能够灵活切换、重复调用甚至递归执行。
为促进任务相关信息的有效流动与精细化处理,VLA 将上述能力分配给不同的模块,分别管理其生成过程,并通过逻辑连接各模块输出,最终推导出完整动作。因此,生成格式的设计与模块的训练策略构成了 VLA 的核心技术。
本综述从这一视角出发,系统回顾现有研究工作。
我们将 VLA 中的最大可微子网络和非可微函数单元统称为“VLA 模块”,其输出产物称为“动作标记”。此外,VLA 模块中具有语义意义的中间输出也被视为“动作标记”。
术语“动作标记”的命名不仅表明其封装了与动作相关的信息,也延续了大型语言模型(LLMs)中“语言标记”的命名传统。事实上,VLA 中的动作标记可视作 LLM 中语言标记的泛化形式。
为了更清晰地阐释上述概念,
图??1 展示了若干具有代表性的案例。在给定当前环境中的语言指令时,Hi Robot?[24] 采用经过微调的 PaliGemma 模型来预测下一个子任务(以自然语言形式表达)。随后,一个类似于 π0?[22] 的 VLA 模型被用于生成低层级的机器人控制指令。在此架构中,微调后的 PaliGemma 模型与定制化的 π0 共同构成 VLA 模块,而中间生成的语言计划和底层动作则作为对应的动作标记。
另一个典型实例是 VoxPoser?[16],其首先利用大语言模型(LLMs)将高层语言指令拆解为多个可执行的子任务。接着,结合 LLMs 与视觉语言模型(VLMs),根据当前感知场景为每个子任务生成可供性图(affordance maps)。最终,通过调用运动规划模块,将这些可供性图转化为具体的原始动作。在此流程中,LLMs、VLMs 及运动规划算法均被视为 VLA 模块,而语言计划、可供性地图以及最终生成的动作则分别作为不同阶段的动作标记。
基于对现有研究的系统性梳理,我们发现大多数视觉-语言-动作(VLA)模型遵循一种统一的抽象框架,如图 图??1 所示:视觉与语言输入信息经过一系列 VLA 模块的迭代处理,逐步生成一系列动作标记,这些标记逐层细化操作指导,最终输出可执行的机器人动作。该框架为理解和比较不同 VLA 架构提供了一个共通的视角。
此外,由于 VLA 模型依赖于基础模型来构建其内部的 VLA 模块与动作标记,底层模型的多样性也直接导致了动作标记格式的多样化。目前的研究主要聚焦于八种典型类型:语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作以及推理过程。在 图??2 中,我们以“准备茶”这一任务为例,对这八类动作标记的常见表现形式进行了可视化展示,直观呈现了在相同输入条件下,不同类型如何编码任务执行的指导信息。
以下是这八种动作标记的具体定义:
- 语言描述(见第?4 节):以自然语言形式表达预期的动作序列,涵盖从抽象的高级任务规划到具体的低级运动指令。
- 代码(见第?5 节):可执行的代码片段或伪代码,可用于构建完整的机器人程序,或指定原子级别的操作命令。
- 可供性(见第?6 节):一种空间表征方式,用于捕捉物体在特定任务下的交互属性,常表现为关键点、边界框、分割掩码或可供性热力图。
- 轨迹(见第?7 节):按时间顺序排列的空间状态序列,反映物体、机械臂末端执行器或整体场景的动态变化过程。
- 目标状态(见第?8 节):对未来观测结果(如图像、点云或视频片段)的预测,用以视觉化地表示期望的动作结果,并作为执行过程中的中间目标。
- 隐式表示(见第?9 节):通过预训练获得的隐含向量序列,能够在时间步长中编码与动作相关的信息,通常源自大规模数据集的学习。
- 原始动作(见第?10 节):机器人可直接执行的底层控制信号,例如关节角度、速度或力矩指令。
- 推理(见第?11 节):以自然语言形式明确表达生成某一动作标记背后的决策逻辑与思考过程。
接下来的内容将依据动作标记的类型,系统性地对 VLA 模型进行分类综述。针对每一类别,我们将探讨其设计动机、回顾代表性工作,并分析其优势与局限,同时指出未来可能的研究方向。每类讨论后附带一个总结表格,从多个维度对比相关研究的异同。其中,“前模块”与“后模块”两列分别描述动作标记生成前后的 VLA 模块设计策略,体现了在动作生成与转换机制上的关键技术选择与创新。
此外,表??1 对各类动作标记的核心优势、主要限制以及重要的实证成果进行了归纳,有助于跨类别比较与深入理解。
六、语言描述作为动作标记
使用自然语言作为动作标记,在 VLA 模型中是一种直观且高效的方法,能够充分继承大语言模型(LLM)和视觉语言模型(VLM)在语义理解、逻辑推理与任务规划方面的强大能力。
6.1 概念与层次:语言计划的粒度
受人类“先思考再行动”行为模式的启发,基于语言的动作标记被设计为多层级结构:
- 高层次:语言计划
- 定义:用简洁的自然语言语句描述一个完整的子任务或宏观目标。
- 例子:“拿起杯子”、“把杯子放在桌子上”。
- 作用:作为任务分解过程中的语义锚点,支持高层任务的组织与调度。
- 细粒度:语言动作
- 定义:描述接近物理执行层面的具体动作步骤。
- 例子:“手臂向前移动 20 厘米”、“夹爪闭合至 80% 力度”。
- 作用:为底层控制器提供精确且可解释的操作指引。
6.2 技术演进脉络
- 开端:验证可行性,揭示瓶颈
早期代表性工作如 SayCan 成功展示了 LLM 在零样本设置下将高层指令分解为子任务序列的能力,初步验证了语言驱动机器人的可行性。
核心问题:纯文本 LLM 缺乏对现实环境的感知能力,难以实现语言计划与实际物理状态的有效对齐。
- 发展:融合感知,实现落地
为克服上述缺陷,后续研究引入多种 grounding 机制以增强语言与视觉的耦合:
- 显式定位:如 Socratic Models 等方法,通过将语言指令与图像中的对象进行空间对齐,提升计划的环境适配性。

深度融合技术推动了视觉-语言-动作(VLA)模型的发展,其中PaLM-E通过统一编码视觉、状态与语言信息,使模型能够基于感知直接生成任务计划。类似地,EmbodiedGPT等方法采用轻量级、参数高效的策略设计,显著降低了训练成本,提升了部署灵活性。
SayCan框架则引入“可供性函数”来评估机器人动作的可行性,确保所选行为在当前环境中具备执行条件。与此同时,Inner Monologue机制构建了一个反馈回路,系统可根据环境信号(如成功检测结果或人类反馈)动态调整其行动计划,从而实现更灵活的决策过程。

借助VLM提供的视觉上下文,这些模型能够在复杂场景中理解并响应多模态输入,标志着从静态规划向具备记忆与反思能力的智能体演进。例如BUMBLE等模型引入了记忆和反思机制,使其可以处理更长时间跨度、更高复杂度的任务,展现出更强的自适应性与持续学习潜力。
3. 前沿进展:提升通用性与执行灵活性
早期的研究通常将任务规划限制在预定义技能集合内,缺乏对开放指令和未知环境的应对能力。近期工作如Hi Robot与π?.?则打破了这一局限,通过将高层语义解析与通用底层策略相结合,实现了对多样化指令的理解与执行。
同时,RT-H等研究聚焦于“语言动作”这一中间表示层,促进了不同任务之间的知识迁移与数据共享,并使人机交互中的干预和修正变得更加直观可行。
6.3 核心优势
- 与基础模型无缝集成:可直接利用大语言模型(LLM)和视觉语言模型(VLM)强大的零样本推理能力,减少对特定任务标注数据的依赖。
- 丰富的协同训练资源:依托网络规模的文本与多模态数据进行训练,有助于将广泛的世界知识迁移到具身智能系统中。
- 天然支持长程规划:语言作为高阶抽象工具,是处理复杂、长周期任务近乎必要的媒介。
- 卓越的可解释性与可控性:生成的语言或代码形式计划便于人类理解、监督与干预,增强了系统的安全性与人机协作效率。
6.4 讨论、局限与未来方向
尽管具有诸多优势,当前方法仍面临若干固有挑战:
- 表达能力不足:自然语言在描述需要精确空间控制、时序协调或力觉调节的细粒度操作时存在模糊性,难以满足高精度动作需求。
- 延迟问题:大型模型的文本生成过程可能带来较高延迟,影响实时控制系统的表现。
为此,未来最具前景的方向之一是分层混合架构:即利用语言进行高层战略规划,再由基于其他动作表示(如可供性图谱、轨迹序列或目标状态编码)的专用模块负责低层执行。这种结合既保留了语言的抽象与泛化能力,又发挥了结构化表示在精度与效率上的优势,被视为通往可靠且可扩展具身智能的关键路径。
七、代码作为动作标记
面对复杂的长时序任务,传统动作表示方式(如离散命令或简单指令)往往难以胜任。而基于代码的动作标记——即可执行的代码片段或结构化伪代码——因其具备条件判断、循环控制等编程特性,正成为解决该问题的有效方案。这类方法不仅能调用机器人API,还可实现模块化行为组织,支持分层决策与反应式调整。
表 3: 使用代码作为动作标记的 VLA 研究概述
7.1 核心优势:为何选择代码?
- 结构化的逻辑表达:支持条件分支与循环结构,适合表达复杂任务流程。
- 强大的生态集成能力:可直接调用成熟库(如NumPy)完成空间计算、数学运算等高级功能。
- 透明的接口桥梁:在高层语义指令与底层机器人原语之间建立清晰、可验证的映射关系。
- 与LLM能力高度契合:代码本就是LLM的原生输出格式之一,使其能自然地将视觉与语言输入转化为可执行程序。
7.2 技术演进:从基础框架到深度融合
1. 开创性工作:奠定基础
Code as Policies首次展示了如何使用LLM将自然语言指令转换为Python代码。其关键创新在于整合第三方库进行复杂计算,并借助感知模块引导泛化至新物体,体现出良好的模块化与适应能力。
ProgPrompt则提出了一种基于有限状态机(FSM)的程序化提示框架,通过导入声明、自然语言注释与断言验证等方式引导LLM生成结构正确、逻辑清晰的代码,实现了子任务间的明确定义与动态切换。
2. 近期进展:增强推理与现实 grounding
用于机器人的ChatGPT探索了多种提示工程策略,并强调人工验证反馈回路在保障代码质量与运行安全方面的重要作用。
Instruct2Act为LLM配备了专用的多模态基础模型(如用于图像分割与分类的VLM),将感知任务解耦,从而生成更具现实依据的策略代码。
RoboCodeX引入“思维树”框架,深度融合视觉、语言与物理线索,并在多模态数据集上进行微调,显著提升了代码生成的准确性与情境适应性。
3. 面向复杂与长时序任务
Text2Motion利用LLM生成定义任务成功的目标状态,并结合采样搜索与贪婪搜索的混合规划器,有效应对长周期任务的规划挑战。
RoboScript构建了统一的代码生成管道,标准化输入格式并集成多种感知与运动规划工具,显著提高了代码在不同机器人平台间的灵活性与适应性。
7.3 核心挑战与固有脆弱性
尽管基于代码的方法展现出强大潜力,但仍面临两大根本性难题:
- 表达能力的根本性限制:系统的能力完全依赖于预设API库的覆盖范围。当环境中出现API未涵盖的新情况(如“湿滑表面”),模型无法生成相应的行为逻辑,严重制约其在开放世界中的探索与适应能力。
- 执行中的脆弱性与安全风险:这源于经典的“符号接地问题”。即使生成的代码逻辑无误,一旦现实世界违背了API的隐含假设(如默认地面干燥),就可能导致执行失败甚至硬件损坏。这种对符号-感知映射的强依赖带来了不可忽视的安全隐患。
7.4 未来方向
构建全面、可扩展的API函数库被认为是突破当前瓶颈的关键。未来的系统需支持动态扩展接口,允许在线学习新型动作模式,并结合元编程机制实现对未知情境的自主适应,最终迈向真正开放、鲁棒的具身智能体系。
开发并集成了包含多模态感知、推理模块以及鲁棒动作原语的模块化、功能丰富的API库,为大语言模型(LLM)生成复杂任务代码提供了稳定且结构化的接口支持。
集成形式化验证机制
在代码的整个生命周期——包括生成前、生成后及运行时阶段——引入形式化方法,如静态分析、模型检查与运行时监控,用于验证代码的安全性、逻辑一致性以及执行前提条件,从而显著提升系统的整体鲁棒性。
借助可解释性推动人机协同
通过提升代码透明度,支持交互式调试与协作式优化,使人类操作者能够深入理解、适时干预并持续改进机器人决策过程。这种双向协作机制对于构建可信、可控的智能体系统具有关键意义。
八、可供性作为动作标记
表 4:使用可供性作为动作标记的视觉-语言-动作(VLA)研究概述
在VLA范式中,“可供性”指环境向智能体提供的潜在可执行行为,例如“可抓取”或“可放置”。作为动作标记,它构建了一个结构化、空间化的桥梁,连接视觉感知与物理交互过程。
8.1 核心价值与基本表现形式
为何采用可供性?
- 空间推理能力增强:利用基础模型识别可操作区域,并评估其物理可行性。
- 跨平台泛化能力:通过抽象底层控制细节,实现同一高层指令在不同机器人平台上的通用执行。
- 聚焦任务相关交互:明确编码与当前任务直接相关的交互信息,在物体操作类任务中尤为有效。
四种主要的可供性表示方式(按精度从高到低、稀疏到密集排列):
- 关键点:精确指示接触位置与方向。
- 边界框:提供粗略的物体级定位信息。
- 分割掩码:实现像素级精细区域划分。
- 可供性图:生成密集的空间热力图,反映各位置执行特定动作的适宜程度。
8.2 四种可供性标记的深度解析
1. 关键点:实现精准交互
定义:标识精确的接触点及其朝向。
k=[x, d]
应用与发展:
- 基础定位:如KITE、RoboPoint等方法直接预测关键点以驱动技能执行。
- 提升鲁棒性:CoPa提出由粗到细的定位流程;KUDA则利用关键点构造成本函数,优化两级控制器。
- 结构化推理:OmniManip将关键点嵌入功能空间进行逻辑推理,并引入自我纠正机制提升稳定性。
- 时序扩展:Magma与VidBot将静态关键点拓展为时间序列,预测动作随时间的演化过程,成为连接空间可供性与动作轨迹的关键桥梁。
2. 边界框:高效实现粗粒度定位
定义:通常为二维矩形框或三维立方体的八个顶点坐标。
B={(x_tl, y_tl), (x_br, y_br)}
优势:计算开销小,具备良好的效率与鲁棒性。
典型应用:
- 作为指代接口:DexGraspVLA利用开放词汇检测器将语言指令绑定至目标物体,并转换为掩码用于后续跟踪。
- 支持交互推理:A3VLM采用边界框、运动轴和语义标签组成的三元组建模物体动态行为,并可直接映射为机器人动作指令。
3. 分割掩码:提供像素级几何细节
定义:以二值矩阵形式表示,精确描绘物体轮廓。
M∈{0,1}^{H×W}
优势:能捕捉复杂的几何形状,适用于需要精细接触的操作任务。
应用场景:
- 结构化场景建模:SoFar基于分割掩码构建以物体为中心的场景图,辅助预测功能作用方向。
- 时序锚定与跟踪:ROCKET-1借助SAM 2提取并持续追踪分割结果,形成动态环境中的持久视觉线索,保障操作连贯性。
4. 可供性图:表达密集空间适宜性场
定义:一种空间分布场,每个像素或体素对应执行某一动作的适宜性评分。
A∈?^{H×W}
优势:蕴含先验交互知识,支持更深层次的空间推理。
主要应用方向:
- 指令驱动生成:CLIPort与IGANet可根据自然语言输入生成对应的可供性图。
- 零样本任务合成:VoxPoser通过LLM生成控制代码,再经由视觉语言模型转化为3D价值图,实现无需训练数据的轨迹规划。
- 接触行为推理:ManiFoundation进一步扩展,引入力场与运动热图来描述以接触为核心的可供性,预测接触点、施加力的方向及预期物体运动。
8.3 当前挑战与未来趋势
共性难题:
- 维度限制:多数方法依赖于2D图像输入,难以充分建模复杂的3D空间关系。
- 静态特性局限:现有可供性多反映静态属性,缺乏对交互过程中状态动态演变的刻画。
- 环境敏感性高:易受遮挡、运动模糊等视觉干扰影响,导致性能下降。
三大未来发展方向:
- 学习真实三维可供性:突破2D投影限制,在NeRF、3D高斯溅射等原始3D表示空间中直接学习可供性特征,提升对遮挡和非刚性物体的处理能力。
- 建模时序动态变化:使模型具备预测动作如何改变物体可供性状态的能力(如从“可打开”变为“可倾倒”),这对长周期、多步骤任务至关重要。
- 增强策略鲁棒性与不确定性感知:结合高级数据增强技术提升抗干扰能力,并让策略输出概率性可供性估计,量化自身置信度,从而在实际部署中实现更安全、可靠的决策。


雷达卡


京公网安备 11010802022788号







