发帖

楼主: tusbass

328 0

[其他] 【多模态对齐】MTAG：面向非对齐人类多模态语言序列的模态 - 时间注意力图模型 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-5-12
最后登录: 2018-5-12

楼主

tusbass 发表于 2025-12-11 15:19:46 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

MTAG: Modal-Temporal Attention Graph 论文核心解析

一、研究背景与核心挑战

人类的自然交流依赖于多种模态信息的协同，例如语言内容、语音语调以及面部表情等。这种多模态序列数据在时间维度上往往存在异步性和采样频率差异，导致传统模型在处理时面临两大难题：

时序非对齐问题：不同模态的数据采集速率不一致，且缺乏精确的时间同步机制，使得跨模态特征难以有效对齐。
交互建模局限：现有方法多局限于双模态之间的简单融合，无法全面捕捉文本、视觉、声学三者之间复杂的高阶关联。
模型复杂度与可解释性矛盾：参数规模庞大易引入噪声关联，削弱模型对关键跨模态时序信号的关注能力。

二、MTAG 模型架构概述

MTAG（Modal-Temporal Attention Graph）是一种基于图结构的可解释神经网络框架，旨在通过构建异构图来建模非对齐多模态序列中的模态-时间联合交互。其核心流程分为三个阶段：节点构建 → 边构建 → 融合与剪枝，实现端到端的多模态理解。

1. 关键术语定义

符号	含义说明
v_i	图中第 i 个节点
e_ij	从节点 v_i 到 v_j 的有向边
x_i / x'_i	节点 v_i 的原始特征与转换后特征
π_i	节点 v_i 所属的模态类型（如文本、视觉、声学）
φ_ij	边 e_ij 的模态方向类型（如“视觉→文本”）
τ_ij	边 e_ij 的时间关系类型（过去、现在、未来）
α_[h],i,j	第 h 个注意力头下节点对 (v_i, v_j) 的归一化注意力权重
k	边剪枝比例（超参数）
H	多头注意力机制的头数

2. 三阶段建模流程详解

（1）节点构建（Node Construction）

该阶段将原始多模态输入转化为统一空间下的图节点，主要包含两个步骤：

特征映射：各模态（文本、视觉、声学）的原始特征通过独立的前馈网络（FFN）进行非线性变换，映射至相同维度，解决跨模态特征空间异构问题。
时序编码注入：为每个转换后的节点特征添加位置嵌入（Positional Embedding），以保留其在所属序列中的相对或绝对时间位置信息。位置编码公式如下：

PE_(pos,2i) = sin(pos / 10000^2i/d_emb)， PE_(pos,2i+1) = cos(pos / 10000^2i/d_emb)

最终输出为一组带有模态标识 π_i 的图节点集合。

（2）边构建（Edge Construction）

在无先验对齐的前提下，MTAG 构建全连接图，并通过双重边属性刻画节点间复杂关系：

模态边类型（Multimodal Edge Types）：
- 初始化时构建完全连接图，每条边 e_ij 标注其源节点与目标节点的模态流向 φ_ij = (π_i → π_j)。
- 三模态两两组合共产生 9 种模态边类型（如“文本→声学”、“视觉→文本”等）。
时间边类型（Temporal Edge Types）：
- 为每条边分配时间标签 τ_ij ∈ {过去, 现在, 未来}，反映跨模态时序依赖关系。
- 同模态节点依据原始序列顺序直接判断时间关系。
- 跨模态节点采用伪对齐策略：将长序列视为卷积输入，短序列为输出，推导出对齐窗口（卷积核大小）和步长，从而确定“现在”对应的节点区间，其余划分为“过去”或“未来”。

结合模态与时间两种边属性，共形成 9 × 3 = 27 类异质边类型，充分表达多模态时序动态。

（3）融合与剪枝（Fusion & Pruning）

该阶段利用多头注意力机制学习节点间重要性权重，并进行稀疏化优化：

基于边的模态-时间类型，设计类型感知的注意力计算函数，增强对特定交互模式的识别能力。
使用 Top-K 剪枝策略，仅保留每个节点最相关的 k 条输入边，去除冗余连接，提升模型效率与泛化性。
最终聚合剩余边的信息完成特征更新，支持下游任务预测。

三、实验设置与性能评估

1. 实验配置

在标准多模态情感分析数据集 CMU-MOSI 上验证模型效果，采用交叉验证方式训练，输入特征来自预提取的文本（BERT）、视觉（Facet）和声学（ComParE）表示。优化器选用 Adam，学习率动态调整。

2. 主要结果分析

（1）性能对比

MTAG 在多项指标上优于主流基线模型，包括但不限于：

准确率（Accuracy）显著领先于 TFN、LMF、MARN 等融合模型。
在 F1-score 和 MAE 方面表现稳健，表明其对正负情绪判别能力强且回归误差小。

（2）参数效率与运行效率

尽管引入了图结构与多类型边编码，MTAG 通过剪枝机制实现了较高的参数利用率：

相比全连接注意力模型，参数量减少约 30%～40%，同时保持更高性能。
推理速度优于多数基于复杂对齐的模型，具备实际部署潜力。

3. 消融实验（CMU-MOSI 验证集）

通过控制变量法验证各组件贡献：

移除时间边类型导致性能下降明显，说明时序建模至关重要。
去除模态边类型亦造成显著损失，证明细粒度模态流向建模的有效性。
关闭剪枝机制虽小幅提升精度，但大幅增加计算负担，权衡下剪枝更优。

四、定性分析与可解释性探讨

通过对注意力权重可视化发现：

模型倾向于关注“现在”时间窗口内的跨模态交互，符合人类感知规律。
在愤怒表达场景中，“声学→文本”的注意力较强，体现语气对语义强化的作用。
剪枝后保留的关键边多集中于语义转折点附近，显示出模型具备捕捉关键事件的能力。

五、结论与主要贡献

MTAG 提出了一种新颖的图建模范式，用于处理非对齐多模态序列数据，其主要贡献包括：

提出“节点-边”双重建模思路，显式分离模态与时间交互，增强模型可解释性。
设计模态-时间联合边类型系统，支持 27 种异质关系建模，突破传统双模态限制。
引入伪对齐机制与边剪枝策略，在无需真实对齐标签的情况下实现高效学习。
在多个基准任务上取得优异表现，验证了方法的有效性与通用性。

六、附录关键补充

本节汇总论文中未展开但重要的技术细节：

位置编码维度与模型深度匹配，确保远距离依赖建模能力。
多头注意力中各头可自发聚焦不同类型的关系（如某些头偏好“未来→当前”连接）。
剪枝比例 k 作为超参数需在验证集上调优，通常取值范围为 [0.1, 0.3]。

论文：MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal Language Sequences
作者：Jianing Yang1?, Yongxin Wang1?, Ruitao Yi1, Yuying Zhu1, Azaan Rehman1, Amir Zadeh1, Soujanya Poria2, Louis-Philippe Morency1
单位：1Carnegie Mellon University 2Singapore University of Technology and Design
代码： https://github.com/ jedyang97/MTAG

（3）融合与剪枝（Fusion & Pruning）

MTAG 融合机制（MTAG Fusion） 通过多头注意力结构建模节点之间的复杂交互关系，其计算流程如下：

1. 原始注意力得分计算：基于边的模态类型与时间特性，计算节点对之间的注意力强度。公式为：

β_[h],i,j = LeakyRelu( a_[h]^φ_ji,τ_ji [x'_i ∥ x'_j] )

其中，a_[h]^φ_ji,τ_ji 表示针对特定边类型的可学习注意力向量，[x'_i ∥ x'_j] 代表源节点与目标节点特征的拼接向量。

2. 注意力权重归一化：对每个节点 i 的邻居 j，使用 softmax 函数进行归一化处理：

α_[h],i,j = exp(β_[h],i,j) / Σ_{k∈N_i} exp(β_[h],i,k)

该步骤确保各注意力头在局部邻域内的权重分布合理。

3. 多头特征聚合：将 H 个注意力头的加权结果进行拼接，生成最终的节点表示：

z_i = concat_h=1^H( Σ_{j∈N_i} α_[h],i,j x'_j )

此过程有效融合了多模态与时间维度上的交互信息，增强节点表征能力。

动态边剪枝策略（Dynamic Edge Pruning） 用于优化图结构并提升模型效率：

首先，计算每条边在所有注意力头上的平均权重：

_ij = (1/H) Σ_h=1^H α_[h],i,j

随后，依据该均值对图中所有边按权重降序排列，并移除最末尾 k% 的低权重要边。实验设定 k = 20%，即保留前 80% 最具影响力的连接。这一操作不仅减少了冗余计算，也削弱了噪声带来的虚假关联影响。

图读出层（Graph Readout） 实现全局信息提取以支持下游任务：

过滤掉无任何入边的孤立节点，因其未参与有效信息传递；
对剩余节点的输出特征进行平均池化；
将池化后的图级向量送入一个三层 MLP 网络，完成分类或回归预测任务。

三、实验设计与结果分析

1. 实验配置

数据集说明：

数据集	任务描述	规模	评价指标
IEMOCAP	四分类情感识别（开心 / 悲伤 / 愤怒 / 中性）	约 10,000 段视频	F1 分数（应对类别不平衡）
CMU-MOSI	情感强度回归分析（评分范围 [-3, 3]）	2,199 条电影评论视频	Acc₇（七分类准确率）、Acc₂（二分类准确率）、F1、MAE（越低越好）、Corr（与人工标注的相关系数）

基线模型对比组：包括 EF-LSTM、LF-LSTM、CTC+EF-LSTM、CTC+MCTN、CTC+RAVEN 以及此前性能最优的 MulT 模型。

输入特征来源：文本模态采用 GloVe 词嵌入，视觉信号来自 Facet 特征，声学特征提取自 COVAREP 工具包。

2. 主要实验结果

（1）性能表现对比

IEMOCAP 数据集（F1 分数）： MTAG 在全部情感类别上均优于现有方法。例如，“开心”类别的 F1 达到 86.0（MulT 为 81.9），“中性”类达到 64.1（MulT 为 59.7），显示出更强的细粒度识别能力。

CMU-MOSI 数据集：除 Acc₇ 指标略低于 MulT（MTAG: 38.9 vs. MulT: 39.1）外，其余指标全面领先： Acc₂ = 82.3，F1 = 82.1，MAE = 0.866，Corr = 0.722。相较之下，MulT 对应指标分别为 81.1、81.0、0.889 和 0.686，验证了 MTAG 更优的回归与判别性能。

（2）参数效率与训练效率

参数量对比： MTAG 总参数仅为 0.14M，相当于 MulT（2.24M）的 6.25%，具备显著轻量化优势。

训练效率评估： - 收敛速度：在 CMU-MOSI 上，MTAG 仅需 12 轮即可收敛，而 MulT 需要 17 轮； - 单轮耗时：CMU-MOSI 场景下 MTAG 平均每轮 24.4 秒，MulT 为 27.2 秒；IEMOCAP 上 MTAG 为 44.4 秒/轮，MulT 为 56.0 秒/轮，体现更高的计算效率。

3. 消融研究（基于 CMU-MOSI 验证集）

为验证关键组件的作用，开展系统性消融实验：

消融配置	核心发现
边类型设置	采用 27 种结合模态与时间信息的复合边类型时性能最佳。若仅使用模态边（85.6/85.7/0.859）或仅时间边（85.2/85.2/0.887），效果均弱于联合建模，表明不同类型边可独立捕捉互补交互模式。
剪枝策略	引入动态边剪枝后，模型在保持表达力的同时提升了泛化能力，且降低了约 20% 的图计算负担，证明其在去噪与加速方面的双重价值。

综上，MTAG 通过精细化的融合机制与高效的图结构优化策略，在多个基准任务中实现了高性能与高效率的统一。

在剪枝策略的对比中，TopK 剪枝（保留 80% 节点）表现最佳，性能指标达到 87.0/87.0/0.859；相比之下，随机剪枝（75.5/74.5/1.080）和无剪枝方案（84.7/84.7/0.908）均表现较差。该结果表明，合理的剪枝机制能够有效去除模态间的虚假关联，提升模型鲁棒性。

关于不同模态组合的影响分析显示，文本作为主导模态具有显著优势：仅使用文本时模型性能为 81.5/81.4/0.911，而仅依赖视觉与声学模态的组合性能仅为 62.0/59.2/1.360。全模态融合（文本+视觉+声学）取得了最优效果，进一步验证了多模态信息融合的必要性。

注意力权重可视化分析

通过对注意力权重的可视化可以发现，文本模态与其他模态之间的连接边权重普遍更高。例如，“我真的很喜欢”这一表述与挑眉、点头等非语言行为之间建立了较强关联，印证了文本在多模态交互中的主导地位。

跨模态边表现出明显的不对称特征：文本→视觉方向的连接能够捕捉到视觉→文本方向未能识别的语义关联，说明不同类型边之间存在功能互补。此外，视觉与声学模态之间的直接连接权重极低，表明模型倾向于通过文本作为中介来间接整合这两类信息，从而避免引入噪声或虚假相关性——这一点区别于 MulT 等保留此类直连边的方法，后者可能因过度连接而导致干扰。

核心贡献总结

提出 MTAG 框架，首次采用异构图结构建模非对齐多模态序列中的模态-时间交互关系，无需进行预对齐处理。
设计了 27 种细粒度边类型，并结合动态剪枝机制，在保持高性能的同时显著降低参数量（仅为当前 SOTA 方法的 6.25%）。
在情感识别与情感强度预测任务上达到或接近最先进水平，同时具备良好的可解释性。

研究局限与未来展望

当前工作尚未引入更多感知模态（如触觉等），且剪枝比例采用固定设定，未来可探索基于输入自适应调整剪枝率的策略，以进一步优化性能与效率的平衡。

附录补充说明

伪对齐实现细节：利用一维卷积公式计算跨模态对齐窗口：
\[ \frac{M - W}{S} + 1 = N \]
其中 \( M \) 和 \( N \) 分别表示长序列与短序列的长度，\( W \) 为卷积核大小，\( S \) 为步长。该方法确保了不同时序模态间的时间对应关系合理且可计算。

超参数设置：在 CMU-MOSI 与 IEMOCAP 数据集上统一采用 Adam 优化器（初始学习率 1e-3），MTAG 模型层数分别为 6 层和 2 层，注意力头数为 4 和 8，节点嵌入维度为 64，剪枝后保留节点比例为 80%。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：多模态 tag 注意力图模型 MTA

[其他] 【多模态对齐】MTAG：面向非对齐人类多模态语言序列的模态 - 时间注意力图模型 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

MTAG: Modal-Temporal Attention Graph 论文核心解析

一、研究背景与核心挑战

二、MTAG 模型架构概述

1. 关键术语定义

2. 三阶段建模流程详解

（1）节点构建（Node Construction）

（2）边构建（Edge Construction）

（3）融合与剪枝（Fusion & Pruning）

三、实验设置与性能评估

1. 实验配置

2. 主要结果分析

（1）性能对比

（2）参数效率与运行效率

3. 消融实验（CMU-MOSI 验证集）

四、定性分析与可解释性探讨

五、结论与主要贡献

六、附录关键补充

（3）融合与剪枝（Fusion & Pruning）

三、实验设计与结果分析

1. 实验配置

2. 主要实验结果

3. 消融研究（基于 CMU-MOSI 验证集）

注意力权重可视化分析

核心贡献总结

研究局限与未来展望

附录补充说明

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[其他] 【多模态对齐】MTAG：面向非对齐人类多模态语言序列的模态 - 时间注意力图模型 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

MTAG: Modal-Temporal Attention Graph 论文核心解析

一、研究背景与核心挑战

二、MTAG 模型架构概述

1. 关键术语定义

2. 三阶段建模流程详解

（1）节点构建（Node Construction）

（2）边构建（Edge Construction）

（3）融合与剪枝（Fusion & Pruning）

三、实验设置与性能评估

1. 实验配置

2. 主要结果分析

（1）性能对比

（2）参数效率与运行效率

3. 消融实验（CMU-MOSI 验证集）

四、定性分析与可解释性探讨

五、结论与主要贡献

六、附录关键补充

（3）融合与剪枝（Fusion & Pruning）

三、实验设计与结果分析

1. 实验配置

2. 主要实验结果

3. 消融研究（基于 CMU-MOSI 验证集）

注意力权重可视化分析

核心贡献总结

研究局限与未来展望

附录补充说明

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群