楼主: tobyy
42 0

[学科前沿] 【3DV 2026】清华智源GaussianArt突破:3D高斯模型破解机器人仿真关键难题 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-7-13
最后登录
2018-7-13

楼主
tobyy 发表于 2025-11-20 07:03:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

导读

在创建用于机器人仿真或虚拟交互的数字世界时,准确重建带有活动部件的物体(如可开关的柜子、可折叠的椅子)至关重要。现有的主要方法通常是分两步进行:首先分别重建物体在打开和关闭状态下的三维模型,然后比较这两个模型,推测各部件的运动方式。这种分离的方法不仅流程复杂,而且在物体包含多个活动部件时容易出错,导致重建失败。

为解决这一问题,本文提出了一种名为GaussianArt的新模型框架,这是一种能够统一建模几何与运动的关节化高斯模型。该框架摒弃了传统的两步法,而是在一个统一的框架中同时学习物体的三维形态和部件的运动规律。实验表明,这种方法不仅大幅提高了重建的准确性,还能成功处理多达20个部件的复杂物体,远超现有方法的能力。

论文基本信息

  • 论文标题:GaussianArt: Unified Modeling of Geometry and Motion for Articulated Objects (GaussianArt:统一建模关节物体的几何与运动)
  • 论文链接:https://arxiv.org/abs/2508.14891v2

主要贡献与创新

  • 提出了GaussianArt,利用关节化3D高斯统一建模几何与运动,确保跨状态的一致性。
  • 设计了从软到硬的训练范式,逐步优化部件分割和运动参数,增强处理多部件物体的鲁棒性。
  • 构建了MPArt-90基准,包含90个不同类别的物体,系统性地评估算法的可扩展性和泛化能力。
  • 所提出的方法在几何和运动精度上显著优于现有方法,并已成功应用于机器人仿真等下游任务。

研究方法与原理

该模型的核心理念是:将物体表示为一组关节化的3D高斯基元,每个基元同时编码其所属部件和运动方式,通过统一的优化过程,实现物体几何形状和部件运动的联合重建。

GaussianArt框架主要由关节化物体表示、从软到硬的训练范式和初始化三个关键部分组成。

1. 关节化物体表示

传统的3D高斯溅射(3DGS)仅能表示静态场景。为了对关节物体进行建模,作者对其进行了扩展。由于3DGS是显式的表示形式,刚性运动可以通过直接变换高斯基元来实现。

首先,文章将物体重建定义为标准状态(canonical state)下高斯场的运动场。对于单个高斯基元,其刚性运动作用于均值μ(i)和协方差Σ(i)上:

\(\tilde{μ}^{(i)} = R^{(i)}μ^{(i)} + T^{(i)}\)

\(\tilde{Σ}^{(i)} = R^{(i)}Σ^{(i)}{R^{(i)}}^T\)

其中,\((\tilde{μ}^{(i)}, \tilde{Σ}^{(i)})\) 是变换后的高斯参数,\(R^{(i)}\) 和 \(T^{(i)}\) 是每个高斯基元特有的旋转和平移。

然而,一个关节物体通常只有少数几个运动部件(如一个柜子仅有几个抽屉),远少于高斯基元的数量。因此,作者定义了N个全局的运动基 \(\{R_j, T_j\}_{j=1}^{N}\),其中N是部件的数量。每个高斯基元的运动 \((R^{(i)}, T^{(i)})\) 表示为这些运动基的加权组合:

\(R^{(i)} = \sum_{j=1}^{N} w_{j}^{(i)} R_j\), \(T^{(i)} = \sum_{j=1}^{N} w_{j}^{(i)} T_j\)

这里的权重 \(w^{(i)} = \{w_{1}^{(i)}, w_{2}^{(i)}, ..., w_{N}^{(i)}\}\) 表示第 i 个高斯基元属于第 j 个运动基(即某个部件)的概率。

2. 从软到硬的训练范式 (Soft-to-hard Training Paradigm)

直接优化上述的“软”组合权重 \(w_{j}^{(i)}\) 和运动基参数是非常困难的。为了稳定地学习到清晰的部件划分和精确的运动,论文设计了一个从软到硬的训练策略。

软训练阶段:在训练初期,模型采用上述的软混合模式进行学习。此阶段的目标是使网络初步掌握部件的几何形状和大致的运动范围。为了引导权重的学习,模型使用了部件分割掩码。

通过Art-SAM生成的监督信号,系统采用渲染出的权重图与掩码来计算交叉熵损失 \( L_{SEM} \)。此外,为了确保同一部件内的高斯基元具有相似的权重分布,引入了 \( L_{sparsity} \) 正则项,该正则项鼓励相邻高斯基元的权重向量尽可能一致,从而实现空间上平滑且稀疏的部件边界。

\( L_{sparsity} \) 的定义为:\( L_{sparsity} = \sum_{i=1}^{N} \sum_{j \in KNN(i)} \|w^{(i)} - w^{(j)}\| \),其中 \( i \) 代表高斯基元,\( KNN(i) \) 表示 \( i \) 的最近邻高斯基元集合,\( w^{(i)} \) 和 \( w^{(j)} \) 分别是高斯基元 \( i \) 和 \( j \) 的权重向量。

硬训练阶段

当训练达到一定水平,部件划分和几何形状趋于稳定时,模型会切换到硬训练模式。在这个阶段,每个高斯基元不再是软混合运动,而是被硬性分配给具有最高权重的部件。具体来说,每个高斯基元的运动参数直接继承自其所属部件的运动参数,即 \( R^{(i)} = R_{j^*}, T^{(i)} = T_{j^*} \),其中 \( j^* = \arg\max_{j} w_{j}^{(i)} \)。

这种分配方式将高斯基元视为刚性部件的一部分,使运动参数的优化更为直接和高效。为进一步精细化运动参数,模型引入了轨迹正则化项 \( L_{traj} \)。此正则化项通过匹配两帧图像中的特征点,并将其提升到三维空间,进而限制一个部件上的点在经过学习到的变换 \( (R_j, T_j) \) 后,应与其在另一帧中匹配的三维点位置尽可能接近。数学表达式为:\( L_{traj} = \sum_{j \in F(M)} \| (R_j p_j + T_j) - q_j \| \)。

训练过程的损失函数

整个训练过程由一个多目标损失函数指导。软训练和硬训练阶段的损失函数分别表示为:

软训练阶段:\( L_{Soft} = L_{RGB-D} + \lambda_{SEM}L_{SEM} + \lambda_{sparsity}L_{sparsity} \)

硬训练阶段:\( L_{Hard} = L_{RGB-D} + \lambda_{SEM}L_{SEM} + \lambda_{traj}L_{traj} \)

其中,\( L_{RGB-D} \) 是标准的渲染损失,包括L1损失和D-SSIM损失。

初始化 (Initialization)

良好的初始化对于成功的重建至关重要。部件分割方面,作者首先微调了一个强大的图像分割模型 SAM2,使其能够专门用于分割关节物体的部件,从而得到名为 Art-SAM 的模型。随后,通过多视角传播和一致性验证,生成每个视角下高质量且一致的部件分割掩码。

在标准高斯初始化过程中,模型选取一个关节状态(通常是可见度较高的状态)作为标准状态。利用带有部件标签的 RGB-D 图像,将像素点反投影至三维空间,形成带有部件标签的初始点云。这些点云用于初始化标准高斯基元的位置、颜色等属性。每个高斯的部件标签被转换成 one-hot 形式,作为其运动混合权重 \( w^{(i)} \) 的初始值。

实验设计与结果分析

在 MPArt-90 数据集上的实验表明了模型的可扩展性。该数据集包含了来自20个类别的90个关节物体,每个物体都提供了多视角的 RGB-D 图像、相机参数及真实的运动参数。物体的部件数量从2个到20个不等,涵盖了多种运动类型。

评估指标方面,运动估计使用轴角度误差 (Axis Ang)、轴位置误差 (Axis Pos) 和部件运动误差 (Part Motion);几何重建方面,则使用倒角距离 (CD),并区分静态部件 (CD-s) 和动态部件 (CD-m)。

在 MPArt-90 上,论文主要将 GaussianArt 与当前最先进的基于高斯溅射的关节物体重建方法 ArtGS 进行了对比。

根据上述表格数据,当物体部件数量较少(2-3个)时,ArtGS与GaussianArt在某些运动指标上的表现相近。但随着部件数量的增多,ArtGS的性能显著下滑,尤其是在动态部件的几何重建(CD-m)方面,误差大幅上升,这表明其基于聚类的初始化方法在面对复杂场景时效果不佳。相反,GaussianArt依靠其稳健的初始化过程和统一的优化框架,在各种部件数量的测试条件下,均能维持较低的几何重建误差和较高的运动估计准确性,显示出良好的可扩展性和稳定性。

可视化对比:

上图直观地显示了在处理多部件物体时,ArtGS可能会出现部件分割错误(如将多个抽屉误归为同一组)甚至训练失败的情况。而GaussianArt能够精准地识别并分割出每个独立的运动部件,同时准确估算其运动参数,生成高质量的数字孪生模型。

消融实验 (Ablation Studies)

实验设置

为了评估模型各组成部分的有效性,研究者在五个多部件物体上实施了消融实验。

实验结果

通过消融实验的结果分析,可以得出以下几个关键点:部件分割掩码(Part-seg)和部件初始化(Part-init)对于模型学习正确的运动模式至关重要。去除这些组件会导致模型难以捕捉正确的运动,进而导致动态部件的几何误差显著增加。此外,采用简单的MLP进行部件分配(w MLP Seg)在处理复杂多部件物体时效果不佳,强调了Art-SAM结合多视角一致性方法的重要性。L0正则化(L0)和轨迹正则化(Traj)均能有效提升最终运动参数的精度及几何质量,证明了软硬训练策略中各设计元素的有效性。

论文结论与评价

本研究的主要结论是,通过采用统一的关节化高斯表示来同时模拟物体的三维几何结构和部件运动,可以显著增强关节物体重建的精度和稳定性,尤其是在处理包含众多运动部件的复杂物体时。实验结果显示,该方法在大规模基准MPArt-90上的表现优于现有技术。

此研究为构建交互式数字孪生提供了强有力的技术支撑。例如,在机器人模拟环境中,我们可以通过GaussianArt重建的高度精确模型,使机器人学会如何与现实世界中的抽屉、柜门、冰箱等物品互动。同时,该技术还适用于创建更为逼真的4D动态场景,支持人-景交互(HSI)的建模和内容生成。

该方法的优势在于其统一建模的理念,避免了传统分离方法由于步骤间误差累积带来的问题,并且其从软到硬的训练策略既保证了早期学习阶段的灵活性,又确保了后期的精确度。不过,该方法也存在一定的局限性。例如,它在处理两个观察状态之间大幅度运动(如门从全开到全关)时表现欠佳,因为缺乏对中间状态运动的约束。另外,模型的性能很大程度上取决于初始化的质量,若Art-SAM产生的部件分割不准确或多视角重建存在偏差,则最终的运动学习效果会受到影响。

批判性讨论:

未来的研究方向可能包括引入物理约束或运动学先验,以规范不同状态间的运动路径,解决极端运动条件下的参数学习难题。此外,还可以探索一种端到端的部件发现机制,无需预生成分割掩码,从而进一步提高模型的自动化水平和对新类别物体的适应能力。尽管存在上述挑战,GaussianArt提出的一体化框架及其为解决可扩展性问题而建立的大规模基准,无疑为关节物体三维重建领域设立了新的标准。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Gaussian GAUSS 机器人仿真 USS 机器人

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 05:18