楼主: tusbass
321 0

[其他] 【多模态对齐】MTAG:面向非对齐人类多模态语言序列的模态 - 时间注意力图模型 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
30 点
帖子
2
精华
0
在线时间
0 小时
注册时间
2018-5-12
最后登录
2018-5-12

楼主
tusbass 发表于 2025-12-11 15:19:46 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

MTAG: Modal-Temporal Attention Graph 论文核心解析

一、研究背景与核心挑战

人类的自然交流依赖于多种模态信息的协同,例如语言内容、语音语调以及面部表情等。这种多模态序列数据在时间维度上往往存在异步性和采样频率差异,导致传统模型在处理时面临两大难题:

  • 时序非对齐问题:不同模态的数据采集速率不一致,且缺乏精确的时间同步机制,使得跨模态特征难以有效对齐。
  • 交互建模局限:现有方法多局限于双模态之间的简单融合,无法全面捕捉文本、视觉、声学三者之间复杂的高阶关联。
  • 模型复杂度与可解释性矛盾:参数规模庞大易引入噪声关联,削弱模型对关键跨模态时序信号的关注能力。

二、MTAG 模型架构概述

MTAG(Modal-Temporal Attention Graph)是一种基于图结构的可解释神经网络框架,旨在通过构建异构图来建模非对齐多模态序列中的模态-时间联合交互。其核心流程分为三个阶段:节点构建 → 边构建 → 融合与剪枝,实现端到端的多模态理解。

1. 关键术语定义

符号 含义说明
vi 图中第 i 个节点
eij 从节点 vivj 的有向边
xi / x'i 节点 vi 的原始特征与转换后特征
πi 节点 vi 所属的模态类型(如文本、视觉、声学)
φij eij 的模态方向类型(如“视觉→文本”)
τij eij 的时间关系类型(过去、现在、未来)
α[h],i,j h 个注意力头下节点对 (vi, vj) 的归一化注意力权重
k 边剪枝比例(超参数)
H 多头注意力机制的头数

2. 三阶段建模流程详解

(1)节点构建(Node Construction)

该阶段将原始多模态输入转化为统一空间下的图节点,主要包含两个步骤:

  • 特征映射:各模态(文本、视觉、声学)的原始特征通过独立的前馈网络(FFN)进行非线性变换,映射至相同维度,解决跨模态特征空间异构问题。
  • 时序编码注入:为每个转换后的节点特征添加位置嵌入(Positional Embedding),以保留其在所属序列中的相对或绝对时间位置信息。位置编码公式如下:

PE(pos,2i) = sin(pos / 100002i/demb),   PE(pos,2i+1) = cos(pos / 100002i/demb)

最终输出为一组带有模态标识 πi 的图节点集合。

(2)边构建(Edge Construction)

在无先验对齐的前提下,MTAG 构建全连接图,并通过双重边属性刻画节点间复杂关系:

  • 模态边类型(Multimodal Edge Types)
    • 初始化时构建完全连接图,每条边 eij 标注其源节点与目标节点的模态流向 φij = (πiπj)。
    • 三模态两两组合共产生 9 种模态边类型(如“文本→声学”、“视觉→文本”等)。
  • 时间边类型(Temporal Edge Types)
    • 为每条边分配时间标签 τij ∈ {过去, 现在, 未来},反映跨模态时序依赖关系。
    • 同模态节点依据原始序列顺序直接判断时间关系。
    • 跨模态节点采用伪对齐策略:将长序列视为卷积输入,短序列为输出,推导出对齐窗口(卷积核大小)和步长,从而确定“现在”对应的节点区间,其余划分为“过去”或“未来”。

结合模态与时间两种边属性,共形成 9 × 3 = 27 类异质边类型,充分表达多模态时序动态。

(3)融合与剪枝(Fusion & Pruning)

该阶段利用多头注意力机制学习节点间重要性权重,并进行稀疏化优化:

  • 基于边的模态-时间类型,设计类型感知的注意力计算函数,增强对特定交互模式的识别能力。
  • 使用 Top-K 剪枝策略,仅保留每个节点最相关的 k 条输入边,去除冗余连接,提升模型效率与泛化性。
  • 最终聚合剩余边的信息完成特征更新,支持下游任务预测。

三、实验设置与性能评估

1. 实验配置

在标准多模态情感分析数据集 CMU-MOSI 上验证模型效果,采用交叉验证方式训练,输入特征来自预提取的文本(BERT)、视觉(Facet)和声学(ComParE)表示。优化器选用 Adam,学习率动态调整。

2. 主要结果分析

(1)性能对比

MTAG 在多项指标上优于主流基线模型,包括但不限于:

  • 准确率(Accuracy)显著领先于 TFN、LMF、MARN 等融合模型。
  • 在 F1-score 和 MAE 方面表现稳健,表明其对正负情绪判别能力强且回归误差小。
(2)参数效率与运行效率

尽管引入了图结构与多类型边编码,MTAG 通过剪枝机制实现了较高的参数利用率:

  • 相比全连接注意力模型,参数量减少约 30%~40%,同时保持更高性能。
  • 推理速度优于多数基于复杂对齐的模型,具备实际部署潜力。

3. 消融实验(CMU-MOSI 验证集)

通过控制变量法验证各组件贡献:

  • 移除时间边类型导致性能下降明显,说明时序建模至关重要。
  • 去除模态边类型亦造成显著损失,证明细粒度模态流向建模的有效性。
  • 关闭剪枝机制虽小幅提升精度,但大幅增加计算负担,权衡下剪枝更优。

四、定性分析与可解释性探讨

通过对注意力权重可视化发现:

  • 模型倾向于关注“现在”时间窗口内的跨模态交互,符合人类感知规律。
  • 在愤怒表达场景中,“声学→文本”的注意力较强,体现语气对语义强化的作用。
  • 剪枝后保留的关键边多集中于语义转折点附近,显示出模型具备捕捉关键事件的能力。

五、结论与主要贡献

MTAG 提出了一种新颖的图建模范式,用于处理非对齐多模态序列数据,其主要贡献包括:

  • 提出“节点-边”双重建模思路,显式分离模态与时间交互,增强模型可解释性。
  • 设计模态-时间联合边类型系统,支持 27 种异质关系建模,突破传统双模态限制。
  • 引入伪对齐机制与边剪枝策略,在无需真实对齐标签的情况下实现高效学习。
  • 在多个基准任务上取得优异表现,验证了方法的有效性与通用性。

六、附录关键补充

本节汇总论文中未展开但重要的技术细节:

  • 位置编码维度与模型深度匹配,确保远距离依赖建模能力。
  • 多头注意力中各头可自发聚焦不同类型的关系(如某些头偏好“未来→当前”连接)。
  • 剪枝比例 k 作为超参数需在验证集上调优,通常取值范围为 [0.1, 0.3]。
论文:MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal Language Sequences
作者:Jianing Yang1?, Yongxin Wang1?, Ruitao Yi1, Yuying Zhu1, Azaan Rehman1, Amir Zadeh1, Soujanya Poria2, Louis-Philippe Morency1
单位:1Carnegie Mellon University 2Singapore University of Technology and Design
代码: https://github.com/ jedyang97/MTAG

(3)融合与剪枝(Fusion & Pruning)

MTAG 融合机制(MTAG Fusion) 通过多头注意力结构建模节点之间的复杂交互关系,其计算流程如下:

1. 原始注意力得分计算: 基于边的模态类型与时间特性,计算节点对之间的注意力强度。公式为:

β[h],i,j = LeakyRelu( a[h]φjiji [x'i ∥ x'j] )

其中,a[h]φjiji 表示针对特定边类型的可学习注意力向量,[x'i ∥ x'j] 代表源节点与目标节点特征的拼接向量。

2. 注意力权重归一化: 对每个节点 i 的邻居 j,使用 softmax 函数进行归一化处理:

α[h],i,j = exp(β[h],i,j) / Σk∈Ni exp(β[h],i,k)

该步骤确保各注意力头在局部邻域内的权重分布合理。

3. 多头特征聚合: 将 H 个注意力头的加权结果进行拼接,生成最终的节点表示:

zi = concath=1H( Σj∈Ni α[h],i,j x'j )

此过程有效融合了多模态与时间维度上的交互信息,增强节点表征能力。

动态边剪枝策略(Dynamic Edge Pruning) 用于优化图结构并提升模型效率:

首先,计算每条边在所有注意力头上的平均权重:

ij = (1/H) Σh=1H α[h],i,j

随后,依据该均值对图中所有边按权重降序排列,并移除最末尾 k% 的低权重要边。实验设定 k = 20%,即保留前 80% 最具影响力的连接。这一操作不仅减少了冗余计算,也削弱了噪声带来的虚假关联影响。

图读出层(Graph Readout) 实现全局信息提取以支持下游任务:

  • 过滤掉无任何入边的孤立节点,因其未参与有效信息传递;
  • 对剩余节点的输出特征进行平均池化;
  • 将池化后的图级向量送入一个三层 MLP 网络,完成分类或回归预测任务。

三、实验设计与结果分析

1. 实验配置

数据集说明

数据集 任务描述 规模 评价指标
IEMOCAP 四分类情感识别(开心 / 悲伤 / 愤怒 / 中性) 约 10,000 段视频 F1 分数(应对类别不平衡)
CMU-MOSI 情感强度回归分析(评分范围 [-3, 3]) 2,199 条电影评论视频 Acc7(七分类准确率)、Acc2(二分类准确率)、F1、MAE(越低越好)、Corr(与人工标注的相关系数)

基线模型对比组:包括 EF-LSTM、LF-LSTM、CTC+EF-LSTM、CTC+MCTN、CTC+RAVEN 以及此前性能最优的 MulT 模型。

输入特征来源: 文本模态采用 GloVe 词嵌入,视觉信号来自 Facet 特征,声学特征提取自 COVAREP 工具包。

2. 主要实验结果

(1)性能表现对比

IEMOCAP 数据集(F1 分数): MTAG 在全部情感类别上均优于现有方法。例如,“开心”类别的 F1 达到 86.0(MulT 为 81.9),“中性”类达到 64.1(MulT 为 59.7),显示出更强的细粒度识别能力。

CMU-MOSI 数据集: 除 Acc7 指标略低于 MulT(MTAG: 38.9 vs. MulT: 39.1)外,其余指标全面领先: Acc2 = 82.3,F1 = 82.1,MAE = 0.866,Corr = 0.722。 相较之下,MulT 对应指标分别为 81.1、81.0、0.889 和 0.686,验证了 MTAG 更优的回归与判别性能。

(2)参数效率与训练效率

参数量对比: MTAG 总参数仅为 0.14M,相当于 MulT(2.24M)的 6.25%,具备显著轻量化优势。

训练效率评估: - 收敛速度:在 CMU-MOSI 上,MTAG 仅需 12 轮即可收敛,而 MulT 需要 17 轮; - 单轮耗时:CMU-MOSI 场景下 MTAG 平均每轮 24.4 秒,MulT 为 27.2 秒;IEMOCAP 上 MTAG 为 44.4 秒/轮,MulT 为 56.0 秒/轮,体现更高的计算效率。

3. 消融研究(基于 CMU-MOSI 验证集)

为验证关键组件的作用,开展系统性消融实验:

消融配置 核心发现
边类型设置 采用 27 种结合模态与时间信息的复合边类型时性能最佳。若仅使用模态边(85.6/85.7/0.859)或仅时间边(85.2/85.2/0.887),效果均弱于联合建模,表明不同类型边可独立捕捉互补交互模式。
剪枝策略 引入动态边剪枝后,模型在保持表达力的同时提升了泛化能力,且降低了约 20% 的图计算负担,证明其在去噪与加速方面的双重价值。

综上,MTAG 通过精细化的融合机制与高效的图结构优化策略,在多个基准任务中实现了高性能与高效率的统一。

在剪枝策略的对比中,TopK 剪枝(保留 80% 节点)表现最佳,性能指标达到 87.0/87.0/0.859;相比之下,随机剪枝(75.5/74.5/1.080)和无剪枝方案(84.7/84.7/0.908)均表现较差。该结果表明,合理的剪枝机制能够有效去除模态间的虚假关联,提升模型鲁棒性。

关于不同模态组合的影响分析显示,文本作为主导模态具有显著优势:仅使用文本时模型性能为 81.5/81.4/0.911,而仅依赖视觉与声学模态的组合性能仅为 62.0/59.2/1.360。全模态融合(文本+视觉+声学)取得了最优效果,进一步验证了多模态信息融合的必要性。

注意力权重可视化分析

通过对注意力权重的可视化可以发现,文本模态与其他模态之间的连接边权重普遍更高。例如,“我真的很喜欢”这一表述与挑眉、点头等非语言行为之间建立了较强关联,印证了文本在多模态交互中的主导地位。

跨模态边表现出明显的不对称特征:文本→视觉方向的连接能够捕捉到视觉→文本方向未能识别的语义关联,说明不同类型边之间存在功能互补。此外,视觉与声学模态之间的直接连接权重极低,表明模型倾向于通过文本作为中介来间接整合这两类信息,从而避免引入噪声或虚假相关性——这一点区别于 MulT 等保留此类直连边的方法,后者可能因过度连接而导致干扰。

核心贡献总结

  • 提出 MTAG 框架,首次采用异构图结构建模非对齐多模态序列中的模态-时间交互关系,无需进行预对齐处理。
  • 设计了 27 种细粒度边类型,并结合动态剪枝机制,在保持高性能的同时显著降低参数量(仅为当前 SOTA 方法的 6.25%)。
  • 在情感识别与情感强度预测任务上达到或接近最先进水平,同时具备良好的可解释性。

研究局限与未来展望

当前工作尚未引入更多感知模态(如触觉等),且剪枝比例采用固定设定,未来可探索基于输入自适应调整剪枝率的策略,以进一步优化性能与效率的平衡。

附录补充说明

伪对齐实现细节:利用一维卷积公式计算跨模态对齐窗口:
\[ \frac{M - W}{S} + 1 = N \]
其中 \( M \) 和 \( N \) 分别表示长序列与短序列的长度,\( W \) 为卷积核大小,\( S \) 为步长。该方法确保了不同时序模态间的时间对应关系合理且可计算。

超参数设置:在 CMU-MOSI 与 IEMOCAP 数据集上统一采用 Adam 优化器(初始学习率 1e-3),MTAG 模型层数分别为 6 层和 2 层,注意力头数为 4 和 8,节点嵌入维度为 64,剪枝后保留节点比例为 80%。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:多模态 tag 注意力 图模型 MTA

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-4-21 02:36