人大经济论坛 › 论坛 › 经济学人二区 › 学术资源/课程/会议/讲座 › 论文版 › 【论文阅读笔记】ALFRED：面向日常任务的 grounded 指令 ...

发帖

楼主: 顾梦

500 0

[论文求助] 【论文阅读笔记】ALFRED：面向日常任务的 grounded 指令理解基准 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 20 点
帖子: 1
精华: 0
在线时间: 0 小时
注册时间: 2018-12-6
最后登录: 2018-12-6

楼主

顾梦 发表于 2025-11-28 18:20:50 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

ALFRED：面向日常任务的具身智能体行为理解基准

Shridhar, Mohit, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, 和 Dieter Fox 在2020年发表于IEEE/CVF计算机视觉与模式识别会议的论文中提出了 ALFRED（Action Learning From Realistic Environments and Directives）——一个用于评估智能体在真实家庭模拟环境中执行自然语言指令能力的任务完成基准。该项目官网为 AskForALFRED.com。

研究背景与核心挑战

为了让机器人能够在人类生活空间中有效运作，必须解决“符号接地问题”（Symbol Grounding Problem），即把自然语言中的抽象词汇如“清洗”或“杯子”映射到现实世界中的具体物体和动作上。传统的研究多集中于静态图像中的对象识别，而 ALFRED 更进一步，关注的是面向任务的语言理解，这涉及动作序列、环境状态变化以及时间维度上的推理。

许多现有的视觉-语言-动作基准存在明显局限：

数据集	主要限制
R2R (Room-to-Room)	仅限导航，无物体交互
Touchdown	街景导航，环境固定且静态
EQA (Embodied QA)	目标是回答问题而非执行任务
VirtualHome	采用第三人称视角，缺乏第一人称视觉反馈
CHAI	使用笼统的“interact”操作，缺少细粒度动作区分

这些基准普遍忽略了实际任务执行中所面临的复杂性，例如长时序依赖、不可逆的状态变更、部分可观测环境以及自然语言表达的多样性。

真实场景下的任务需求

真实的家务任务对智能体提出了更高要求，包括：

长序列规划：平均每个任务包含约50个动作步骤；
组合性推理：例如“清洗杯子”需分解为[寻找水槽 → 抓取杯子 → 打开水龙头 → 冲洗 → 关闭水源]；
状态追踪能力：物体状态会发生持久改变（如从“脏”变为“干净”），且过程不可逆；
高精度空间定位：交互需要像素级掩码预测，而非简单的类别判断；
语言的多粒度理解：同时处理高层目标（如“准备早餐”）与底层指令（如“向前移动两步”）；
跨环境泛化能力：能在训练未见的新布局中完成任务。

研究聚焦的五大关键问题

1. 长时序动作序列（Long-horizon Action Sequences）

问题描述：ALFRED 中的任务平均需要执行约50步动作，远超典型导航任务的6步。动作空间包含13种离散类型（5类导航 + 7类操作 + 1个停止动作），导致策略搜索空间极大，约为 $12^{50} \approx 10^{53}$。

动机：短序列任务可通过记忆或启发式策略解决，但长序列任务必须具备系统性规划能力和错误恢复机制。例如，若机器人在第30步误关微波炉，则后续加热将失败，必须能检测并修正此类偏差。

2. 组合性任务结构（Compositional Task Structure）

任务由多个子目标嵌套构成，例如“把烤好的苹果放进盘子里”可能依赖于“先找到苹果 → 放入烤箱 → 等待加热 → 取出 → 转移至盘子”。模型需理解这些模块化结构，并支持跨任务的知识迁移。

3. 不可逆状态变化（Non-reversible State Changes）

一旦物体状态被更改（如打开抽屉、煮熟食物），无法自动复原。智能体必须意识到这种单向性，在决策时更加谨慎，避免造成无法挽回的操作失误。

4. 像素级交互掩码预测（Pixelwise Interaction Masks）

为了实现精准操作（如抓取特定把手或点击开关），模型不仅要决定“做什么”，还需输出交互位置的像素级掩码。这一设计推动了视觉-动作联合建模的发展。

5. 语言的多粒度与多样性（Multi-granular & Diverse Language）

指令涵盖不同抽象层级，从宏观目标（“做一顿饭”）到微观动作（“拿起抹布擦桌子”）。同时，同一任务可有多种表述方式，增强了语言表达的多样性与泛化挑战。

ALFRED 数据集构建

该数据集基于 AI2-THOR 2.0 平台构建，提供逼真的三维家庭环境和物理交互模拟。

核心参数

超过10,000个专家演示轨迹；
涵盖7种常见家居任务类型（如清洁、烹饪、摆放物品等）；
每条轨迹平均包含50个动作步骤；
配套高质量自然语言指令。

专家演示生成方式

通过人工操控代理在仿真环境中完成任务，记录完整动作序列与状态轨迹。所有轨迹均经过验证，确保最终达成任务目标。

语言指令采集方式

利用众包平台收集多样化的人类语言描述，每位任务对应多个不同表达风格的指令，提升语言多样性。所有文本经审核以保证语义一致性。

数据划分方式

数据分为训练集、验证集和测试集，按新房间和新任务组合进行划分，重点评估模型在未见环境与任务结构下的泛化性能。

基线模型架构

模型输入与输出

输入：当前帧图像、历史观测序列、自然语言指令。
输出：下一动作类型（离散分类）、目标交互位置（像素级掩码）。

视觉编码

采用 CNN 或 Vision Transformer 提取每帧的特征图，结合历史帧信息形成状态表示。

语言编码

使用预训练语言模型（如BERT）对指令进行编码，生成上下文感知的语言嵌入。

动态指令重加权

引入注意力机制，根据当前情境动态调整指令中各词的重要性，增强对关键动词和名词的关注。

动作解码与交互掩码预测

基于融合后的视觉-语言表征，使用递归网络逐步生成动作序列，并通过上采样网络输出交互掩码。

训练细节

采用 teacher-forcing 策略进行序列训练，结合监督学习与强化学习优化目标。

辅助损失函数：进度监控（Progress Monitoring）

额外引入一个进度预测头，估计当前已完成的任务比例，作为中间监督信号，帮助模型建立对任务阶段的认知。

实验设置与评估

环境平台

所有实验在 AI2-THOR 2.0 模拟器中进行，支持物理合理的物体交互与第一人称视角渲染。

评估指标

任务成功率（Task Success）：代理是否成功完成全部目标；
目标条件成功率（Goal-Condition Success）：在满足前置条件下，子目标是否达成；
路径加权版本：考虑路径效率，惩罚冗余动作；
子目标条件评估：逐阶段分析模型表现，识别失败环节。

实验结果分析

基线性能

标准 Seq2Seq 架构在 ALFRED 上表现有限，任务成功率远低于人类水平，表明现有方法难以应对长视野与复杂状态变化。

消融实验

移除进度监控、交互掩码监督或语言重加权模块后，性能显著下降，证明各组件对整体效果均有贡献。

子目标性能分析

模型在早期导航阶段表现较好，但在后期状态依赖性强的操作（如“放入”、“打开”）中频繁失败，反映其状态追踪能力不足。

人类性能的启示

人类在相同任务上的成功率显著高于当前模型，尤其体现在错误纠正与上下文推理方面，提示未来方向应加强记忆机制与因果推理能力。

总结

ALFRED 是首个专注于复杂日常任务执行的具身智能基准，强调长序列规划、状态感知、精确交互和语言多样性。它不仅提供了丰富的数据资源，也揭示了当前智能体在真实任务理解上的根本瓶颈，为未来研究指明了方向。

[此处为图片1]

组合性任务结构（Compositional Task Structure）

问题描述：复杂任务通常由多个子目标构成。以“Heat & Place”任务为例，其流程包括：[取刀 → 切土豆 → 拿土豆片 → 放入微波炉 → 加热 → 取出 → 放到柜台]。这些子步骤之间存在明确的因果依赖关系——例如，必须先完成切片操作，才能进行加热。

动机：模型需要准确理解自然语言指令中的组合语义，并将其正确映射为有序的执行动作序列。尽管现有方法在单个子任务上表现尚可，但在完成整个连贯任务时仍存在显著困难（参见实验部分结果）。

不可逆的状态变化（Non-reversible State Changes）

问题描述：物体的状态一旦发生改变，如从“完整”变为“切碎”、从“冷”变为“热”或从“干净”变为“脏”，通常是无法恢复的。例如，若机器人误将唯一的苹果切碎，则后续要求“放置一个完整的苹果”的目标将永远无法实现。

动机：这种特性排除了传统路径规划中常用的回溯搜索策略。模型必须具备前瞻性决策能力，充分评估每一步操作对长期目标的影响，避免因短期错误导致任务彻底失败。

像素级交互掩码预测（Pixelwise Interaction Masks）

问题描述：对于 Pickup 等操作类动作，模型需输出目标物体的二进制掩码 $ m_t \in \{0,1\}^{(H×W)} $，而非简单选择预定义类别标签。该设定更贴近真实机器人系统所需的基于分割的抓取（segmentation-based grasping）流程。

动机：现实环境中物体位置随机分布，同类物体的质心也可能存在偏移。若假设定位问题已被解决而仅依赖类别选择，则脱离实际应用背景。通过要求模型生成像素级掩码，迫使其真正识别并理解物体的空间边界与形态特征。

[此处为图片1]

语言的多粒度与表达多样性（Multi-granular & Diverse Language）

问题描述：每条指令同时包含高层任务目标 G（如“Rinse off a mug”）和底层动作序列 S（如“turn and walk to the sink”）。同一任务配有三种不同风格的语言描述，词汇开放且形式自由，涵盖同义替换、句式重组等多种表达方式。

动机：机器人不仅需理解“最终要完成什么”，还需掌握“具体如何一步步实现”。此外，必须能够应对人类语言的高度多样性，包括使用近义词、变换语序以及自由表述等现象。

[此处为图片2]

ALFRED 数据集概述

ALFRED 是一个面向家庭环境中的具身智能任务的数据集，旨在推动视觉-语言-动作联合建模的研究进展。其核心参数如下表所示：

指标	数值
场景数量	120 个室内场景（厨房、浴室、卧室、客厅各 30 个）
物体类别	58 种可拾取物体 + 26 种目标容器
任务类型	7 类：Pick & Place, Stack & Place, Pick Two & Place, Examine, Heat & Place, Cool & Place, Clean & Place
平均步数	50 步 / 任务
平均子目标数	7.5 个 / 任务
平均目标条件数	2.55 个 / 任务

专家演示生成机制

PDDL 规划方法：采用规划领域定义语言（Planning Domain Definition Language）对环境状态（如物体位置、当前属性）进行逻辑编码。在完全可观测的前提下，利用自动规划器求解最优动作序列。例如，针对任务 {Clean & Place, mug, coffee maker, KITCHEN-3}，PDDL 定义如下：

初始状态：At(robot, start), In(mug, cabinet), State(mug, dirty)
目标状态：State(mug, clean), On(mug, coffee maker)
动作规则示例：

Open(robot, cabinet) 前提：Adjacent(robot, cabinet)
Wash(mug) 前提：Holding(robot, mug) ∧ At(robot, sink)

随机化策略：为减少环境偏差，每个任务配置采样三次，随机调整机器人及物体的起始位置，同时确保符合常识约束（例如苹果不会出现在抽屉之外的位置）。

语言指令采集流程

通过 Amazon Mechanical Turk 平台收集自然语言指令。每位标注者观看一段专家演示视频，并根据分段的时间轴标记对应的子目标。他们需为每个片段撰写具体的动作描述，并归纳出整体的高层任务目标。在验证阶段，其他工人会对比三条独立生成的指令是否描述相同行为，剔除不一致的标注结果。

多样性保障机制：每个任务提供三种不同的语言表达版本。实验证明，在已有三个标注基础上再增加新标注时，新增的独特词汇平均少于10个/条，表明三组标注已能有效覆盖主要的语言变体。

数据划分策略

采用基于场景可见性的划分方式，以严格测试模型的泛化性能：

Train：108 个场景，共 21,023 条指令
Val Seen：从训练集中选取 88 个场景的子集，820 条指令
Val Unseen：4 个全新未见过的场景，821 条指令
Test Seen：107 个训练场景，1,533 条指令
Test Unseen：8 个全新场景，1,529 条指令

此划分方式重点考察模型能否将在已知场景中学到的知识迁移到未知环境中，例如利用“微波炉通常位于厨房台面”的通用常识来辅助导航与操作。

基线模型设计

论文提出一种结合视觉、语言与动作推理的基线架构，用于在 ALFRED 任务上进行初步评估。该模型融合了语义解析、状态追踪与动作预测模块，支持端到端训练，并作为后续研究的比较基准。

CNN-LSTM 序列到序列（SEQ2SEQ）模型作为本研究的基线方法，为后续改进提供了基础框架。整体结构如图 4 所示，主要由视觉编码、语言编码、注意力机制、动作解码以及掩码预测五个模块构成。

在每一个时间步 t，模型接收以下输入：

当前时刻的第一人称视角 RGB 图像 o_t（尺寸为 224×224）
完整的语言指令序列 X = G ⊕ S，其中 G 表示高层任务目标，S 为具体操作步骤

对应的输出包括：

下一步应执行的动作 a_t，取值范围为 {MoveAhead, RotateRight, RotateLeft, LookUp, LookDown, Pickup, Put, Open, Close, ToggleOn, ToggleOff, Slice, Stop}
若动作为交互类（如抓取、打开等），则额外输出一个大小为 300×300 的交互掩码 m_t ∈ [0,1]^(300×300)

[此处为图片1]

视觉特征提取

采用预训练且冻结权重的 ResNet-18 网络对输入图像 o_t ∈ ^{(3×224×224)} 进行处理，以避免因微调导致的过拟合问题。从 conv5 层提取空间特征图 f_t ∈ ^(512×7×7)，保留物体在画面中的位置信息，这对后续精准操作至关重要。

为进一步压缩维度并提升效率，使用两层 1×1 卷积将通道数由 512 降至 64，得到降维后的特征 f'_t ∈ ^(64×7×7)。随后将其展平并通过全连接层映射为固定长度向量 v_t ∈ ²⁵⁰⁰，作为该时刻的视觉表征。

语言指令编码

将高层目标 G = g, ..., g_Lg 与步骤说明 S = s, ..., s_Ls 拼接成统一序列：

X = g, ..., g_Lg, <SEP>, s, ..., s_Ls

该序列输入至双向 LSTM 编码器中，分别获取前向和后向隐状态：

h_i = LSTM→(x_i, h_i1)，h_i = LSTM←(x_i, h_i+1)

最终每个词的上下文感知表示由前后向拼接而成：
x_i = h_i ⊕ h_i，其中 i = 1, ..., L，总长度 L = Lg + Ls + 1。
由此获得完整的语言序列编码结果：x = {x, ..., x_L}。

动态指令重加权机制

为了使模型在不同阶段关注语言指令中的关键部分（例如导航时聚焦“走向水槽”，操作时关注“拿起杯子”），引入基于当前状态的注意力机制。

在时间步 t，利用上一时刻解码器的隐藏状态 h_t1 计算对语言序列的注意力分布：

计算注意力得分：z_t = (W_x h_t1) x ∈ ^L
归一化得权重分布：α_t = Softmax(z_t) ∈ ^L
加权融合得到当前语义特征：x_t = α_t x ∈ ^d

其中 W_x 为可学习参数矩阵。该过程实现的是标准的 Bahdanau 注意力机制，计算复杂度为 O(L·d)，适用于长度约 100 以内的自然语言指令，具备良好的实时性与可解释性。

动作生成与掩码预测

动作解码器采用 LSTM 结构，其输入为多模态融合向量：

u_t = [v_t; x_t; a_t1] ∈ ^{2500 + d + |A|}

其中包含当前视觉特征 v_t、加权语言向量 x_t 及上一步动作的 one-hot 编码 a_t1。LSTM 更新后输出当前动作类别 a_t，并在需要时同步预测交互区域掩码 m_t，用于指导精细操作。

在模型设计中，输入向量 $ u_t $ 由多个特征拼接而成：

\[ u_t = [v_t; \hat{x}_t; a_{t-1}] \in \mathbb{R}^{2500 + d + |A|} \]

其中：

$ v_t $ 表示当前时刻的视觉特征；
$ \hat{x}_t $ 是经过加权处理的语言特征；
$ a_{t-1} $ 为上一时刻动作的 one-hot 编码。

该输入被送入 LSTM 单元以更新隐藏状态：

\[ h_t = \text{LSTM}(u_t, h_{t-1}) \in \mathbb{R}^{512} \] [此处为图片1]

基于当前隐藏状态与输入的联合表示，进行动作预测：

\[ a_t = \arg\max(W_a [h_t; u_t]) \in \{1, ..., 13\} \]

其中 $ W_a \in \mathbb{R}^{13 \times (512 + 2500 + d)} $ 为可学习的全连接权重矩阵，输出对应 13 种可能动作的对数概率分布。

对于涉及操作的动作类型，还需进一步预测目标物体的掩码：

\[ m_t = \sigma(\text{DeConv}([h_t; u_t])) \in [0,1]^{300 \times 300} \]

该掩码通过以下结构生成：

首先使用全连接层将拼接后的特征 $[h_t; u_t]$ 映射至维度 64×7×7；
随后经过三层反卷积操作，逐步上采样：7×7 → 15×15 → 30×30 → 60×60 → 300×300；
最后采用双线性插值进行尺寸调整，并通过 Sigmoid 激活函数限制输出范围在 [0,1] 之间。

[此处为图片2]

训练过程中采用加权二元交叉熵作为损失函数，特别针对像素级掩码预测任务。由于物体区域通常占比不足 5%，因此对正样本（前景）赋予更高权重（实践中设为 10），以缓解类别不平衡问题。

在与环境交互阶段，模型生成的预测掩码会与 AI2-THOR 引擎提供的所有物体真实掩码计算 IoU，选择 IoU 最高的物体作为实际操作目标。此为后处理步骤，模型本身无需识别物体类别。

为了增强模型对任务进展的理解能力，引入两个辅助学习目标：

时间进度预测

模型需估计当前任务完成比例：

\[ p_t = \sigma(W_p [h_t; u_t]) \in [0,1] \]

监督信号来自专家轨迹的相对时间位置，即 $ t/T $，其中 $ T $ 为总步数。优化目标为 L2 损失。

子目标进度预测

同时预测已完成的子目标数量归一化值：

\[ c_t = \sigma(W_c [h_t; u_t]) \in [0,1] \]

监督信号为已完成子目标数除以总子目标数 $ C $，同样采用 L2 损失进行优化。

子目标由 PDDL 规划器自动划分，如导航段、拾取段、加热段等。模型仅需粗略感知整体进度，无需精确对齐每个子任务。

实验设置

本研究基于 AI2-THOR 2.0 模拟平台开展，其为一个支持物理交互的三维室内环境，具备以下关键特性：

Egocentric 视角：第一人称观察，贴近真实机器人感知方式；
离散动作空间：导航在网格上进行，操作动作也被离散化处理；
动态状态变化：物体可发生状态转换，如清洁/脏污、加热/冷却、切片/完整等；
部分可观测性：无全局地图信息，依赖持续视觉观测构建情境理解；
高视觉多样性：每类物体包含超过 30 种外观变体（不同颜色、形状），且场景布局随机生成（参见图 F10）。

评估指标

任务成功率（TaskSuccess） 定义为最终状态下是否满足所有目标条件：

\[ \text{TaskSuccess} = \mathbb{I}[\text{所有目标条件在最终状态满足}] \]

该指标关注结果而非路径，鼓励任务完成而非简单模仿专家行为。

目标条件成功率（GoalCondSuccess） 提供更细粒度的评价：

\[ \text{GoalCondSuccess} = \frac{\text{完成的目标条件数}}{\text{总目标条件数}} \]

例如，若完成 3/4 个条件，则得分为 75%，而非零分。这一设定有助于分析模型在不同任务环节中的表现瓶颈。

路径加权评分机制定义如下：

公式：p_s = s × (L* / max(L*, L_hat))

其中，L* 表示专家完成任务所需的步数，而（即 \hat{L}）代表模型实际执行所用的步数。若模型使用两倍于专家的步数完成任务，则其得分将被折半。

该机制的设计动机在于提升效率评估——防止模型通过无意义的随机探索偶然达成目标，从而鼓励更高效、精准的行为策略。

[此处为图片1]

子目标条件化评估方法

由于完整任务难度过高，研究提出“子目标条件评估”框架以分解复杂行为：

强制模型沿专家轨迹执行至第 k-1 个子目标；
从第 k 个子目标起，由模型自主决策并完成后续流程；
评估模型在第 k 个子目标上的完成情况及后续任务的成功率。

此方式可隔离特定能力进行独立测试，例如导航（Goto）、抓取（Pickup）、状态变更（Heat）等操作。

举例来说，在评估“抓取土豆片”这一子目标时，专家轨迹已包含前往刀具位置并完成切片的过程，模型仅需在此基础上执行抓取动作。这使得抓取能力得以单独检验，不受前序步骤干扰。

实验结果分析

基线模型表现

模型	Test Unseen Task Success	Test Unseen Goal-Cond Success
SEQ2SEQ	0.5%	7.1%
SEQ2SEQ+PM	0.4%	7.0%
HUMAN	91.0%	94.5%

观察可知，基线模型接近随机水平（约0%），表明任务极具挑战性。尽管引入进度监控对整体任务成功率提升有限，但在路径加权分数上有轻微改善，说明其对效率有一定促进作用。人类表现极为出色，验证了指令语义清晰且任务本身具备可行性。

消融实验

单模态输入影响

NO LANGUAGE：仅提供视觉输入，Goal-Cond 成功率约为 6.6%。模型依赖视觉记忆重复常见动作（如默认打开微波炉）；
NO VISION：仅保留语言输入，Goal-Cond 成功率同样约为 6.6%。此时模型依赖语言记忆在固定位置执行预设动作。

结果显示，视觉与语言两种模态均不可或缺，但简单的特征拼接融合无法有效解决复杂任务。

语言粒度的影响

GOAL-ONLY：仅提供高层目标，Goal-Cond 成功率约 6.9%，难以应对多步骤任务；
INSTRUCTIONS-ONLY：仅提供详细步骤指令，Goal-Cond 成功率达 7.2%，效果与同时使用两者相近。

可见 SEQ2SEQ 模型未能有效利用高层目标进行长期规划，更多表现为对步骤指令的机械式执行。

子目标性能对比

子目标	可见场景成功率	不可见场景成功率	核心挑战
Goto	51%	22%	视觉语义导航，新环境物体布局差异大
Pickup	32%	21%	掩码预测精度，未见物体外观
Put	81%	46%	放置位置推理，遮挡
Heat/Cool	88–89%	89–92%	操作微波炉/冰箱，物体检索不重要
Slice	25%	12%	需先找到刀，多步骤因果链

分析发现：

状态改变类子目标（如 Heat/Cool）成功率较高，因其主要涉及固定设备操作，视觉变化小且与具体物体无关；
导航类子目标在未见场景中显著下降，反映模型对训练环境布局存在过拟合；
Slice 子目标失败率高，因依赖前置动作（找刀），一旦出错则后续全盘崩溃。

人类表现带来的启示

人类在未见环境中仍保持高达 91% 的成功率，说明：

语言理解并非瓶颈：指令表达清晰，易于理解；
视觉泛化能力强大：能够识别新环境中的物体及其功能；
规划能力至关重要：人类能主动维护任务状态，规避不可逆错误。

少数失败案例源于误操作（如物体掉落至不可达区域）或物理限制（如开门时碰撞自身），也反映出模拟器中存在的边界情况（edge cases）。

总结与讨论

ALFRED 是首个整合以下要素的综合性基准：

高层目标与低层指令结合
像素级交互
状态动态变化
长序列任务规划

它揭示了当前模型在“视觉-语言-动作”联合推理方面的显著不足，尤其体现在组合性任务和跨场景泛化能力上的瓶颈。

基线模型的失败暴露出多个关键问题：

缺乏显式记忆机制：LSTM 隐藏状态难以维持长达 50 步的状态追踪，常出现重复行为（如反复切已切好的土豆）；
缺少空间推理能力：未构建语义地图，导航依赖局部视觉线索，导致路径低效甚至循环；
错误持续累积：无回溯机制，一次抓取失败可能导致物体“丢失”，任务无法恢复；
因果推理薄弱：无法理解“必须先切片才能加热”的逻辑链条，可能尝试直接加热整颗土豆。

虽然理论上进度监控应有助于长序列控制，但实践中效果有限，潜在原因包括：

监督信号稀疏：进度为连续值，采用 L2 损失不如分类损失有效；
视觉混淆：不同子目标可能外观相似（如“放土豆进微波炉” vs “取出土豆”），LSTM 难以准确区分；
子目标边界模糊：PDDL 定义的子目标划分未必与自然语言指令对齐，导致时间-语言对齐学习困难。

此外，掩码预测在未见场景中频繁失败的原因可能有：

外观差异：训练集中微波炉多为白色，测试中出现黑色型号时，模型预测掩码发生偏移；
遮挡处理能力弱：当物体被部分遮挡时，模型无法合理推断其完整位置；
多物体歧义：面对多个同类型物体（如多个苹果），模型难以根据指代表达（referring expression）正确选择目标。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Alfred Ground ROUND 阅读笔记论文阅读

返回列表

发帖

本版微信群

扫码
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[论文求助] 【论文阅读笔记】ALFRED：面向日常任务的 grounded 指令理解基准 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

ALFRED：面向日常任务的具身智能体行为理解基准

研究背景与核心挑战

真实场景下的任务需求

研究聚焦的五大关键问题

1. 长时序动作序列（Long-horizon Action Sequences）

2. 组合性任务结构（Compositional Task Structure）

3. 不可逆状态变化（Non-reversible State Changes）

4. 像素级交互掩码预测（Pixelwise Interaction Masks）

5. 语言的多粒度与多样性（Multi-granular & Diverse Language）

ALFRED 数据集构建

核心参数

专家演示生成方式

语言指令采集方式

数据划分方式

基线模型架构

模型输入与输出

视觉编码

语言编码

动态指令重加权

动作解码与交互掩码预测

训练细节

辅助损失函数：进度监控（Progress Monitoring）

实验设置与评估

环境平台

评估指标

实验结果分析

基线性能

消融实验

子目标性能分析

人类性能的启示

总结

组合性任务结构（Compositional Task Structure）

不可逆的状态变化（Non-reversible State Changes）

像素级交互掩码预测（Pixelwise Interaction Masks）

语言的多粒度与表达多样性（Multi-granular & Diverse Language）

ALFRED 数据集概述

专家演示生成机制

语言指令采集流程

数据划分策略

基线模型设计

视觉特征提取

语言指令编码

动态指令重加权机制

动作生成与掩码预测

时间进度预测

子目标进度预测

实验设置

评估指标

子目标条件化评估方法

实验结果分析

基线模型表现

消融实验

单模态输入影响

语言粒度的影响

子目标性能对比

人类表现带来的启示

总结与讨论

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群