SIGMOD 2025 | 重磅研究：多变量时间序列相似性度量最全评估出炉，三大颠覆性发现公开

4关注
124
粉丝

管理员

已卖：189份资源

泰斗

6%

还不是VIP/贵宾

-

0%

威望: 3 级
论坛币: 131323 个
通用积分: 13634.7680
学术水平: 278 点
热心指数: 286 点
信用等级: 253 点
经验: 232931 点
帖子: 7240
精华: 19
在线时间: 4443 小时
注册时间: 2019-9-13
最后登录: 2026-4-3

楼主

CDA网校

发表于 2026-2-25 09:43:23 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

时间序列的距离（或相似性）度量是各种分析任务的基石，但现有研究主要集中于单变量场景。针对多变量时间序列 (MTS) 的研究不仅数量有限，且存在明显短板：仅关注少数几类度量、只考虑单一的归一化方法、缺乏严谨的统计分析。为填补这一空白，本文对MTS距离度量进行了迄今为止最全面的评估。研究系统地考察了8大类别下的30种独立度量，并结合了13种归一化技术和2种通道依赖模型，在30个数据集和3种下游任务上进行了广泛实验。

研究结果不仅验证并扩展了单变量领域的既有结论（如Z-score并非最佳归一化方案，部分新弹性度量优于动态时间规整(DTW)），更揭示了MTS领域的特有洞见：

滑动度量(Sliding measures) 在准确性与运行时间之间取得了最佳平衡。
现有归一化(normalization)技术对MTS的准确性提升有限，甚至不如不进行归一化，表明领域内缺乏真正适用于MTS的归一化方案。
将时间序列各通道视为独立，仅对弹性度量(elastic measures)有益。最终，本报告为社区设计和选择MTS预处理策略与距离度量提供了实践指南。

一、论文基本信息

基本信息

论文标题：A Structured Study of Multivariate Time-Series Distance Measures
作者：Jens E. d’Hondt, Haojun Li, Fan Yang, Odysseas Papapetrou, John Paparrizos
作者单位：Eindhoven University of Technology, the Netherlands; The Ohio State University, USA
代码链接：https://github.com/TheDatumOrg/MTSDistEval
论文链接：https://dl.acm.org/doi/10.1145/3725258

摘要精炼

面对当前MTS距离度量研究不足和现有评估存在局限性的问题，本文旨在提供一个全面、严谨的比较研究。作者系统性地评估了30种独立的MTS距离度量，这些度量横跨8个类别、2种通道依赖模型和13种归一化方法。通过在30个数据集上进行分类、聚类和异常检测任务，并结合严格的统计分析与参数调优，本研究验证了部分单变量时间序列 (UTS) 的结论在MTS领域依然适用：例如，其他归一化方法优于Z-score，部分锁步度量 (lock-step measures) 优于欧氏距离，以及在监督设置下，较新的弹性度量优于DTW。

更重要的是，研究揭示了MTS独有的新发现：(a) 滑动度量在准确率和运行时间上达到最佳权衡；(b) 现有归一化技术并未显著提升MTS的准确率，表明缺乏合适的MTS归一化方案；(c) 独立处理各通道仅对弹性度量有益。基于这些发现，本文为研究者提供了MTS预处理和距离度量选择的实用指南。

二、研究背景与相关工作

Figure 1.

研究背景

时间序列数据在气象、金融、医学等众多领域无处不在，而度量其相似性是分类、聚类、异常检测等核心分析任务的基础。然而，设计一个合适的距离度量极具挑战性。与文本等其他数据类型不同，时间序列数据具有强时间依赖性，且常面临各种失真，如时间偏移、尺度差异和噪声。人类可以凭直觉识别出形态相似但存在失真的序列，但将这种感知能力数学化却异常困难。在MTS场景下，问题变得更为复杂，因为失真可能仅发生在部分通道，也可能同时影响所有通道。现有研究对这一复杂场景的探索不足，导致社区对各类MTS距离度量的性能和适用范围缺乏清晰认识。

四、研究方法与原理

总体框架与核心思想

Figure 2. 本文的核心思想是通过一个结构化的框架来系统性地拆解和评估MTS距离度量。该框架围绕三个正交的维度构建，旨在让研究者能清晰地理解不同方法的特性与权衡：

归一化 (Normalization)：作为预处理步骤，用于校正序列间的尺度和偏移差异。
时间模型 (Temporal Model)：定义了度量如何处理时间维度上的失真，是度量方法的核心分类依据（如锁步、滑动、弹性等）。（参考图2）
通道依赖模型 (Channel-Dependency Model)：定义了度量如何处理多通道间的关系，即是将所有通道视为一个整体（通道依赖），还是独立处理每个通道（通道独立）。

通过这三大维度的组合，论文得以对现有MTS度量进行系统性梳理和公平比较，从而揭示各类方法在不同场景下的优劣。

关键实现与评估原理

关键实现细节

通道依赖模型的实现:
- 通道独立: 将MTS的每个通道视为独立的UTS，分别计算距离后进行汇总。
- 通道依赖: 将MTS视为一个整体进行计算。例如，对于弹性度量，通过动态规划寻找一条对所有通道都适用的全局最优对齐路径；对于滑动度量SBD，则通过2D快速傅里叶变换(FFT2)寻找一个能最大化所有通道总相关性的全局最优平移。
关键公式示例:
- 弹性度量 (Elastic Measures) 的核心思想是通过动态规划寻找最优对齐路径。其代价矩阵的递推关系如下，其中 Cost(i, j) 表示两个MTS在时间点 i 和 j 之前的最小对齐成本：

核心评估原理与指标

Table 2.

评估框架: 采用基于k近邻(kNN)的算法来评估度量的判别能力。具体而言，使用1NN分类器进行分类任务，使用围绕中心点划分(PAM)算法进行聚类，使用1NN检测器进行异常检测。该框架的优势在于几乎没有超参数，能够直接反映距离度量本身的性能。
参数化：为确保公平性，对需要参数的度量（如弹性、核度量等）进行了系统的参数调优，覆盖了监督（在训练集上交叉验证）和无监督（选择一个在所有数据集上表现普遍良好的默认值）两种设置。（参考表2）
评估指标:
- 分类: 1NN准确率。
- 聚类: 兰德指数(Rand Index, RI)。
- 异常检测: PR曲线下面积(Volume Under Surface Precision-Recall, VUS-PR)。
统计分析: 采用Wilcoxon检验进行成对比较，使用Friedman-Nemenyi检验进行多方法全局排序比较，以确保结论具有统计显著性。

五、实验结果与分析

实验设置

数据集:
- 分类/聚类: UEA & UCR Time Series Classification Repository中的30个MTS数据集。
- 异常检测: TSB-AD-M Benchmark中的200个MTS数据集。
评估指标: 1NN分类准确率、兰德指数(RI)、VUS-PR。
对比基线: 初始基线为欧氏距离(Euclidean distance)，并在后续比较中动态更新为当前表现最佳的度量（如Lorentzian, SBD-D）。
关键超参: 对弹性、核、嵌入等度量在广泛的参数空间内进行了搜索，并分别在监督和无监督设置下确定最优参数。

核心实验与结论

Table 5.

Figure 5.

仅选择一项最能体现本文贡献的核心实验进行阐述。

实验目的: 旨在验证弹性度量相较于性能强大的滑动度量 (SBD-D) 是否具有优势。实验在监督和无监督两种参数设置下进行，以探究弹性度量处理局部时间扭曲的复杂能力是否能转化为比SBD-D处理全局平移更优的分类准确率。
关键结果: （参考表5和图5c, 5d）
- 在监督调优设置下，仅有MSM-I和TWE-I两种弹性度量显著优于SBD-D。
- 在无监督设置下，没有任何一种弹性度量能够显著优于SBD-D。
- 结果表明，弹性度量的性能高度依赖于参数选择，而参数无关的SBD-D已经具备极强的竞争力。
作者结论:
- SBD-D是一个非常强大的基准方法，它在无需任何参数调优的情况下就能取得极具竞争力的性能。
- 弹性度量处理局部时间失真的能力并不总能保证带来比滑动度量更好的性能，尤其是在缺乏监督信号进行参数调优时。
- 这一发现凸显了SBD-D在准确率和计算效率之间实现了卓越的平衡，是MTS相似性度量的一个优选。

六、论文结论与启示

总结

本文通过一个由归一化、时间模型和通道依赖模型构成的三维框架，对MTS距离度量进行了迄今最全面的结构化评估。研究证实了单变量领域的一些结论在多变量场景下依然成立，但更重要的是揭示了MTS领域的独特发现。

核心结论是：参数无关的滑动度量SBD-D在准确率和效率之间提供了最佳权衡，其性能可与经过复杂调优的弹性度量相媲美；当前主流的归一化方法对MTS任务助益甚微，凸显了开发MTS专用归一化技术的必要性；通道依赖模型的选择与时间模型紧密相关，通道独立策略仅对弹性度量有益。

展望

基于本文的研究与发现，未来的研究方向包括：

开发MTS专用归一化方法: 目前的归一化方法大多直接从UTS迁移而来，未能有效处理MTS的多维特性。设计能够感知并利用通道间关系的归一化技术是一个亟待解决的问题。
改进基于特征和模型的度量: 当前的基于特征的度量缺乏对通道间依赖的刻画，而基于模型的度量所用模型（如高斯模型、HMM）过于简单。未来可以探索能够捕获跨通道动态和复杂时间模式的特征与模型。
探索更优的集成策略: 集成度量的潜力尚未被充分发掘。目前简单的距离分数平均法有待改进，需要研究更具原则性的方法来融合不同度量的优势。
构建MTS子序列分析基准: 当前缺乏用于MTS子序列分类或聚类的基准数据集，限制了对距离度量在子序列匹配任务上表现的评估。