楼主: clairesjj
431 0

[其他] 多模态大语言模型的空间推理:任务、基准与方法综述 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-7-4
最后登录
2018-7-4

楼主
clairesjj 发表于 2025-11-25 18:05:13 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

本文从认知科学的角度出发,构建了一套面向空间推理任务的分类体系,系统梳理了在文本、视觉-语言以及具身交互场景下的主流基准数据集与评估方法。同时,文章深入探讨了训练驱动与推理增强两类提升模型空间理解能力的技术路径,揭示出现有模型与人类在空间智能方面存在的本质差异。

引言

大语言模型(LLMs)的发展标志着人工智能领域的重要突破,展现出卓越的语言理解、逻辑推理和内容生成能力。这类基于Transformer架构的模型通过在海量文本语料上进行预训练,能够胜任翻译、摘要生成、复杂推理等多种语言任务,并具备少样本甚至零样本学习的能力,已成为当前AI研究的核心支柱之一。

在此基础上,研究者进一步拓展至多模态领域,发展出视觉-语言模型(VLMs),将视觉编码器与大语言模型结合,试图打通感知与语言之间的鸿沟。然而,在人类智能中至关重要的空间认知能力——即对三维世界中物体位置关系的理解与推演能力——仍然是当前模型的重大短板。

这种差距体现在两个层面:任务类型与信息表征方式。大语言模型擅长处理如文本、代码等离散序列数据;而真实世界的空间推理则发生在连续的三维环境中,支撑着机器人导航、物体操作等关键应用。其根本原因在于“表征失配”:物理世界本质上是连续的几何结构,而大语言模型将所有信息编码为离散的token序列,仅能从语言或图像中学习到空间概念的统计共现模式,而非真正的几何原理。例如,模型可能知道“立方体在圆形左侧”这一表述常出现在特定上下文中,却无法真正理解其中的空间几何含义。

从认知机制来看,人类依赖心理模型进行空间处理,能够在脑海中模拟旋转、平移或视角变换等操作;而语言本身将连续的空间关系压缩为有限的类别标签(如“上方”“左侧”),只能表达定性关系。神经科学研究表明,海马-内嗅皮层回路中的“位置细胞”和“网格细胞”可构建连续的内部坐标系,实现对环境的度量级编码;相比之下,大脑皮层中的语言表征则是离散且序列化的,更适合符号组合与预测,而非空间度量计算。

这种连续空间表征与离散语言符号之间的断裂,本质上属于“符号接地问题”。大语言模型缺乏对空间的内在建模能力,无法像人一样在思维中重构或调整空间布局;即便引入视觉输入,现有视觉-语言模型仍主要停留在二维平面或投影表示层面,难以建立深度的三维心理模型。

因此,增强多模态大语言模型的空间智能,是推动其向“理解并交互真实世界”的通用世界模型演进的关键一步。尽管当前模型在纯语言任务上表现优异,但其空间理解能力的不足严重制约了其在机器人、自动驾驶、AR/VR、智能导航等具身场景的应用潜力——这些任务均要求连贯的空间推理与持续的物理交互。

现有的综述工作多依据输入模态(如文本、图像、3D点云)或模型在3D任务中的功能角色进行分类。而由匹兹堡大学团队提出的《Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods》则另辟蹊径,摒弃传统的模态或任务导向框架,转而从认知过程视角切入,提出一个全新的分类体系。该体系围绕空间任务的三大核心认知维度——参考系、信息类型与任务性质,结合推理复杂度层级,系统整合了跨模态基准资源,并总结了训练式与推理式两种能力提升路径,为后续研究提供了清晰的认知图谱与发展指引。

背景知识与研究动机

2.1 基于Transformer的现代模型架构

Transformer模型的核心创新在于自注意力机制,它允许模型并行处理全部输入token,并根据上下文动态分配关注权重。配合位置编码机制,该结构有效保留了序列顺序信息,为多模态大语言模型提供了强大的长程依赖建模能力,成为当前主流架构的基础。

2.1.1 大语言模型

大语言模型依托Transformer架构实现了参数规模的极大扩展,通常在大规模文本或代码语料上进行自回归预训练,以“预测下一个词元”为目标函数。在此过程中,模型涌现出诸如少样本学习、思维链推理等高级能力。但由于训练数据局限于纯文本,模型所掌握的空间知识仅源于语言描述的统计规律,缺乏与真实几何世界的直接关联。因此,其空间理解停留在“在…之上”“靠近”等简单定性关系层面,难以保证距离精度或满足物理一致性约束。

2.1.2 视觉-语言模型

视觉-语言模型通过集成视觉编码器(如Vision Transformer)与大语言模型,借助对齐模块和跨模态注意力机制,构建统一的多模态表征空间。此类模型能够实现图文对话、指令执行等功能,可将空间语言描述(如“绿色立方体左边的蓝色球”)映射至图像像素空间,解析二维相对位置与对齐关系。然而,受限于单张图像的二维投影特性,模型难以准确推断深度信息、体积大小或被遮挡物体的空间状态,三维空间建模能力依然薄弱。

2.2 空间认知的功能维度分解

为了系统评估和分析大模型的空间推理能力,有必要借鉴认知科学理论,将其拆解为三个正交的核心维度(见图4)。这三个维度共同构成了理解空间任务的认知框架:

1)参考系:内在 vs 外在
内在参考系以观察者自身为中心定义空间关系(如“左边”“前方”),具有主观性和视角依赖性;外在参考系则采用外部固定坐标系统(如“北侧”“房间角落”),独立于个体视角,更具客观稳定性。人类可根据任务需求灵活切换参考系,而当前模型往往难以区分二者,导致空间描述歧义或推理错误。

2)信息类型:定性 vs 定量
定性信息描述的是类别化的关系(如“在…之间”“相邻”),不涉及具体数值;定量信息则包含精确的距离、角度、比例等度量属性。人类既能处理模糊的空间描述,也能进行精准的空间计算;而多数模型更擅长处理定性语言表达,对数字敏感的空间量化任务表现较差。

3)任务性质:静态 vs 动态
静态任务关注某一时刻的空间构型(如判断物体相对位置);动态任务则涉及空间状态随时间的变化(如预测运动轨迹、模拟碰撞结果)。动态推理需要模型具备时空建模能力和因果推断机制,远超当前多数模型的能力边界。

上述三个维度相互交织,形成多层次的空间推理能力谱系。通过这一认知框架,可以更精细地定位模型的优势与缺陷,指导未来的研究设计与评估标准制定。

参考系用于定义物体的位置、朝向以及相互之间的关系。根据参照基准的不同,可分为内在参考系与外在参考系:前者依据物体自身的结构或方向进行描述,强调物体本体属性;后者则依赖于场景中其他物体或整体环境特征来定位目标。

空间信息的表达方式可划分为定性与定量两类:

  • 定量信息:涉及连续、精确的空间数据处理,如距离、角度、体积等具体数值,适用于高精度测量与计算。
  • 定性信息:将空间关系抽象为离散类别,例如拓扑关系(“在…内”、“在…下”)、相对位置(“在…左侧”、“介于…之间”)和方向关系(“平行于”、“朝向”)。这种表达更贴近人类日常的空间认知习惯。

从推理过程来看,空间思维还可分为静态与动态两种类型:

  • 静态推理:关注固定场景下物体间空间关系的理解与描述,是空间认知的基础层次。
  • 动态推理:要求在心理上模拟空间结构的变化过程,包括物体移动、旋转或视角转换等,支撑规划决策、问题求解及反事实推演,也是AI模型实现“主动预测”能力的关键跃迁点。

2.3 感知到推理的认知层级演进

人类的空间智能遵循“感知 → 理解 → 推理”的递进结构:

空间感知:作为最底层的能力,负责采集并初步组织来自环境的原始感官输入,如视觉、听觉信号。

空间理解:将碎片化的感知信息整合为连贯的心理表征,形成类似“心理地图”的内部模型,用以捕捉环境中各元素之间的结构化关系。

空间推理:在此基础上主动操作这些内部表征,通过想象变换、预测结果、解决空间问题等方式,完成对运动、旋转或观察角度变化的模拟。

大模型若要实现类人的高阶空间智能,必须经历相似的发展路径——从提取表面可见的空间线索,逐步构建稳定的空间表征系统,并最终支持灵活、符合物理规律且具备预测性的空间推断能力。

2.4 多模态大语言模型面临的核心挑战

尽管当前视觉-语言模型已融合了图像感知能力,但在实现稳健的空间推理方面仍存在显著局限,主要体现在以下三个方面:

1)视觉编码器的投影瓶颈
现有的二维视觉编码器设计更侧重于语义与文本的对齐优化,而非保持三维几何信息的完整性。当图像被编码为扁平化的视觉令牌序列时,深度、方向、尺度连续性等关键空间维度遭到压缩甚至丢失,导致模型虽能识别物体,却难以准确推理其精细的空间布局。

2)学习统计关联而非物理规律
由于预训练阶段的目标多基于共现模式,模型倾向于记忆常见语义搭配(如“杯子在桌子上”),而非掌握真实的几何或物理约束。这使得其在回答空间问题时更多依赖模式补全而非逻辑验证,面对需要度量判断或反事实假设的问题时性能明显下降,且注意力往往集中于语义显著区域而忽略几何关键区。

3)参考系模糊与不一致
空间关系具有视角依赖性(自我中心 vs. 世界中心),但现有模型缺乏明确的参考系管理机制,仅依靠注意力机制处理混合的视觉-语言令牌。这导致在视角切换时容易出现参考系漂移现象,在左右/前后辨识、多视角定位或视角转换任务中常发生错误,同时因缺少场景记忆机制,同一场景在不同提问下的回应可能出现矛盾。

三、空间推理任务的分类体系构建

本文提出一种基于“认知维度 × 推理复杂度”的双轴分类框架,突破传统仅按输入模态划分的局限,实现对空间任务更为精细化的分析与评估。

3.1 基于认知维度的任务分类

结合“参考系—信息类型—任务性质”三个维度,筛选出五类典型空间认知任务(排除冗余或无实际意义组合):

1)内在 - 定性 - 静态
针对单一静止物体内部结构或部件关系的推理,采用该物体自身为参考系。示例:“椅子的靠背位于座位上方”。

2)外在 - 定性 - 静态
最常见的空间描述类型,使用外部场景或其他物体作为参考基准,描述多个物体间的定性空间关系。示例:“桌子和台灯的位置关系是什么?”

3)定量 - 静态
聚焦于空间属性的精确量化,涵盖单个物体的尺寸参数或多物体之间的度量关系。示例:“这张桌子的高度是多少米?”

4)内在 - 定性 - 动态
基于物体内部结构模拟其形态变化过程,需在心理上操纵其构型。示例:“折叠一个立方体后,某一特定面会出现在哪个位置?”

5)外在 - 定性 - 动态
模拟物体在环境中的相对关系随动作或视角改变后的演变情况。示例:“当你坐在沙发上时,你右侧的物体是什么?”

该分类体系有助于区分相同输入形式下不同的认知需求(如同为图像问答,可能对应静态识别或动态心理旋转),从而更精准地诊断模型的能力边界与缺陷。

3.2 推理复杂度层级划分

依据认知加工的深度,将空间推理任务划分为四个层级:

Level 1:直接感知
仅需提取输入中显性呈现的信息,无需任何推理过程,主要用于测试基础感知能力,如物体识别、场景分类等。

Level 2:单步推理
超越直接观察,需推导两个或多个可感知物体之间的基本空间关系,尽管个体对象可见,但其关系需进一步推断得出。

Level 3:多步链式推理
任务需分解为多个连续推理步骤,前一步结论作为下一步的前提条件,类似于空间领域的“思维链”,要求维持一致的心理状态追踪。

Level 4:高阶合成推理
融合多种推理机制(如空间+常识+物理推理),处理复杂的动态场景变换,检验模型的综合泛化能力。示例:“如果从右侧推动积木堆,积木将按照怎样的顺序掉落?”

该层级体系可用于衡量任务的“认知深度”,帮助识别模型在不同推理阶段的表现差异(如擅长单步但无法执行多步推理)。

3.3 分类体系应用示例

图5展示了各类空间任务在“认知类别(横轴)— 推理复杂度(纵轴)”二维坐标网格中的分布情况。

图 5 展示了认知分类与推理复杂度层级之间的映射关系:横轴代表五种核心认知任务类型,纵轴表示四级推理难度层次。该图清晰揭示了不同任务在认知维度与复杂度上的关联性。例如,在“外在 - 定性 - 静态”类任务中,Level 3 要求模型整合如“A 在 B 下方”和“B 在 C 左侧”这类信息,进一步推导出“A 与 C 的空间关系”。

这一映射表明:在同一认知类别下,随着复杂度层级的提升,任务难度显著增加;而在相同复杂度层级中,不同认知类别所考察的核心能力存在差异。以 Level 2 为例,“外在 - 定性 - 动态”任务需处理物体间相对位置的变化过程,而“内在 - 定性 - 动态”则侧重于单一物体内部结构或形态的变换操作。

四、数据集、基准与评估指标

4.1 基准的核心作用

空间推理能力的评估高度依赖于结构化的数据集与标准化的基准体系。其中,数据集提供带有标注的视觉或三维数据,反映真实物理世界的几何状态与空间关系;基准则定义具体任务形式、挑战类型及评估协议,用于检验模型对空间知识的掌握程度,包括其一致性、有效性以及是否具备几何接地性(geometric grounding),是推动领域发展的关键衡量工具。

4.2 空间推理数据集与基准的现状

当前主流基准呈现出明显的分布倾向,反映出研究热点与现存短板:

4.2.1 关系推理类任务占据主导地位

多数现有基准集中于“外在 - 定性 - 静态”类别,即空间关系推理任务。典型应用包括:自动生成包含空间描述的图像字幕、构建视觉问答中的空间关系对、基于点云扩展多物体定位数据集等。此类任务契合当前大模型在语言表达与视觉-文本对齐方面的优势,构成了空间智能的基础层,但往往难以深入测试模型对几何结构的本质理解能力。

4.2.2 定量推理任务覆盖不均

尽管“定量 - 静态”类任务看似广泛存在,但实际上主要集中于 Level 1 的简单感知任务,如物体计数;而对于真正体现度量推理能力的任务——如距离估算、角度判断、体积比较、尺寸推断等——缺乏系统性基准支持。少数专注于度量推理的数据集(如 Q-Spatial Bench)尚处于初步发展阶段,暴露出离散化语言模型与连续空间表征之间存在的根本性错配问题。

4.2.3 动态推理成为前沿方向

动态空间推理(涵盖“内在 / 外在 - 定性 - 动态”)被视为更高阶的空间智能挑战。相关基准可分为两类:一是内在动态推理任务,如立方体折叠模拟,旨在测试模型对单个物体构型变化的追踪与预测能力;二是外在动态推理任务,如视角转换问答或导航路径推理,用以评估模型在场景视角或自身位置发生变化时的空间保持与推理能力。这些任务更能全面反映模型的空间模拟能力与泛化水平。

4.2.4 数据来源趋势:合成与真实世界并存

合成数据集(如 Open3DVQA)具有无噪声、真值精确可控、可编程生成等优势,适用于隔离特定变量、验证特定推理机制,但容易导致模型学习到生成过程中的隐性模式,从而引发过拟合问题。相比之下,真实世界采集的数据更贴近实际应用场景,具备更高的生态效度,但也面临标注成本高、数据噪声多等问题。理想策略应是将两类数据互补使用,而非单一依赖某一种来源。

4.3 评估指标体系

由于空间推理任务通常涉及多模态输入输出,因此需要多样化的评估手段,主要分为以下四类:

4.3.1 事实与分类任务评估指标

针对具有唯一正确答案的问答或分类任务,常用准确率(Accuracy)和 F1 分数进行评价。这些指标能有效衡量模型输出的离散匹配精度,但无法捕捉推理过程的质量,也无法奖励那些虽非完全匹配但逻辑合理、空间上接近正确的部分正确答案。

4.3.2 语言生成任务评估指标

对于字幕生成、对话响应或自然语言推理输出任务,传统方法采用 BLEU、ROUGE 和 CIDEr 等基于 n-gram 重叠的指标来衡量生成文本与参考文本的相似度。然而,这类方法难以识别语义层面的关键错误。例如,“椅子在桌子左侧且红色”与“椅子在桌子左侧且绿色”在 n-gram 上高度相似,但颜色属性存在本质偏差。

近年来,“大模型作为评判者”(LLM-as-Judge)的方法逐渐兴起,能够更深入地评估语义一致性,比如识别“台灯在沙发后方”与“沙发在台灯前方”在空间含义上的等价性,从而弥补传统自动指标在空间语义理解方面的不足。

4.3.3 空间定位与几何任务评估指标

针对空间定位任务,交并比(IoU)被广泛用于衡量预测区域与真实标注区域的重叠程度;在导航任务中,成功率(SR)和路径长度加权成功率(SPL)用于评估路径规划的有效性与效率;对于 3D 生成或重建任务,则采用倒角距离(Chamfer Distance, CD)和推土机距离(Earth Mover's Distance, EMD)来量化生成形状与目标形状之间的几何相似度。这些指标直接反映空间保真度,超越了语言表面形式的匹配。

4.3.4 人类评估

面对复杂的开放式任务(如综合场景理解、创造性空间描述生成),自动化指标往往无法全面覆盖合理性、常识性和创新性等多个维度。此时,人工参与的人类在环评估(Human-in-the-loop Evaluation)被视为金标准,虽然实施成本较高且难以大规模扩展,但在高阶能力验证中不可或缺。

五、提升空间推理能力的方法路径

目前提升大模型空间推理能力的主要策略可分为两大类:训练式方法(通过调整模型参数嵌入空间先验知识)与推理式方法(在推理阶段引入引导机制,不修改参数)。

5.1 训练式方法

该类方法通过架构改进、数据增强或强化学习等方式,将空间知识直接编码进模型参数之中,实现长期记忆与内化(见图 6)。

5.1.1 空间感知模块的训练设计

通过对 Transformer 架构进行改造,引入显式的几何信息处理机制。例如,为 2D 视觉令牌附加 3D 位置嵌入(如深度信息、相机参数),使其携带空间坐标信息;或构建点云与语言模态之间的对齐模块,利用参数高效微调技术(PEFT)加速三维感知特征与语言系统的融合进程。此类方法可显著提升模型在 3D 定位、空间问答等任务中的表现,但也会带来模型结构复杂度上升和计算资源消耗增加的问题。

5.1.2 基于特定任务的合成数据微调策略

为应对真实三维数据匮乏的问题,可采用合成数据进行模型训练。例如,通过自动化手段生成大规模的空间问答对,涵盖定性与定量的3D空间关系;或借助ProcTHOR等仿真引擎构建场景级别的问答数据集,从而增强模型在动态环境中的空间推理能力。需要注意的是,应防范因过度依赖单一生成方式而导致的过拟合现象,建议融合多种合成流程生成的数据以提升泛化性能。

5.1.3 利用强化学习优化推理路径

将多步空间推理建模为序列决策过程,引入强化学习机制来优化推理链条。首先通过有监督微调(SFT)使模型掌握基本的推理逻辑,随后采用分组相对策略优化(GRPO)等算法,并结合任务相关的奖励信号(如输出格式正确性、任务准确率、推理长度控制)进一步调整推理路径。该方法有助于提升模型在复杂任务中的适应能力,但也面临训练过程不稳定及奖励函数设计困难等挑战。

5.2 推理阶段的空间能力增强方法

此类方法在推理过程中引入外部引导机制,无需修改模型参数即可提升其空间推理表现(见图7):

图7 推理式方法概览:左侧展示结构化提示如何引导模型逐步推理,借助文本或可视化思维链提高可解释性;右侧呈现场景图等显式空间表征形式,将语言推理过程锚定于具体的几何结构之上,从而增强准确性。

5.2.1 结构化提示技术及其扩展形式

核心思想是利用结构化的提示语引导模型将复杂问题分解为多个简单的推理步骤:

基础思维链(CoT):鼓励模型输出中间推理步骤,模拟人类解题时的逐步思考过程;

可视化思维链(VoT):要求模型生成ASCII艺术图或符号化图形表示中间状态,适用于导航和物体操作等空间任务;

多模态可视化思维链(MVoT):融合语言描述与动态视觉表达,增强模型在动态空间环境下的推理鲁棒性。

尽管这类方法有效,但其效果受限于基础模型本身的能力,且存在错误传播风险——某一步骤出错可能导致最终结果偏差,部分情况下甚至会劣化整体性能。

5.2.2 显式构建空间结构表征

通过建立场景图、认知地图或网格布局等形式的显式空间表达,将抽象的语言信息与具体的空间结构相绑定。例如,使用场景图(节点代表物体,边表示空间关系)来建模环境信息,支持零样本条件下的路径规划;或在俯视图中叠加笛卡尔坐标网格,提供几何参考框架。此类方法能显著减少语义歧义,提升推理精度,但通常需要额外的检测或解析模块,可能引入流水线误差,同时场景图本身易出现信息缺失或冗余问题。

六、开放性挑战与未来研究方向

6.1 当前面临的主要挑战

6.1.1 数据集与评估基准的局限性

高质量的3D数据资源稀缺,远不如文本或二维视觉数据丰富,且人工标注成本高昂。现有评测基准多集中于“外在-定性-静态”类任务,缺乏对定量推理和动态空间变换能力的有效覆盖,导致对模型真实空间理解水平的评估不够全面。

6.1.2 空间认知的不完整性

当前模型的空间理解主要依赖统计模式匹配,而非真正的几何原理掌握;此外,在不同参考系之间迁移能力较弱(如仅基于物体中心训练的模型难以处理以环境为中心的任务),尚未形成统一的世界模型。

6.1.3 模型架构与训练范式的制约

主流模型预训练以文本为主导,空间接地仅作为后续微调环节,使得空间知识依附于语言先验;Transformer结构基于离散序列处理,与连续空间的本质特性存在错配;同时缺乏持久性的空间记忆机制,难以整合来自多视角或时间序列的空间信息。

6.2 未来发展方向

6.2.1 构建更优的数据集与评测体系

推动建设大规模、多模态、富含空间标注信息的数据集,包含精确的3D坐标、物理属性及功能关联;开发聚焦度量推理与动态空间变换的新基准,使其更贴近人类空间认知的发展阶段;建立标准化的因子分析框架,系统评估场景复杂度、观察视角数量等因素对模型性能的影响。

6.2.2 发展空间感知驱动的训练机制

突破传统文本主导的预训练模式,探索语言、视觉与3D几何信息的联合预训练方案,致力于构建统一的跨模态世界模型;设计跨模态对比学习目标,促使模型将语言概念直接映射至对应的3D空间构型,而非仅仅学习统计层面的相关性。

6.2.3 探索面向空间智能的新型网络架构

研究更适合连续空间建模的架构,如扩散模型,用于合理刻画空间布局与变换的概率分布;引入具备显式记忆功能的模块(如可更新的场景图、拓扑地图),使模型能够累积并整合跨视角、跨时间的空间信息,结合大模型的高级推理能力,实现“语言推理”与“几何表征”的协同运作。

七、总结

空间智能是连接语言理解与物理世界交互的关键瓶颈。本文从认知科学视角出发,构建了空间推理的能力分类体系,梳理了在文本、视觉-语言以及具身智能场景下的代表性基准与评估指标,系统分析了训练式与推理式两类能力提升路径,揭示了当前模型在静态定性描述方面的优势,以及在度量推理、动态变化和组合泛化等方面的不足。

未来的突破需围绕表征学习、训练机制与评估体系三方面展开:研发能够原生支持3D几何编码的神经架构,设计促进跨模态对齐的训练目标,构建更加符合人类认知规律的评测基准,最终推动基础模型获得真正意义上的空间智能,为机器人、增强现实(AR)、虚拟现实(VR)等实际应用场景提供坚实支撑。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:多模态 Evaluation Multimodal Benchmarks transform

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-5 17:53