一、核心问题
1. 问题定义
跨域图级异常检测任务的核心在于训练一个能够识别目标域中异常图的分类器。其中,源域仅包含正常图,而目标域则包含了未标记的图(包括正常图和异常图)。
2. 研究动机
传统的图级异常检测方法大多基于无监督学习,假设训练集完全由正常图组成。然而,这一假设在现实中往往难以满足,因为一旦训练集中混入异常图,检测性能就会大幅下降。此外,某些领域的数据可能已经充分标注,但在目标域中,这种标注可能非常有限。现有的无监督域适应(UDA)方法主要应用于图像和文本数据,对于图结构数据并不适用,尤其是当源域仅包含一类数据时。
二、关键技术:ARMET方法
ARMET是一种基于对抗域适应的图级异常检测方法,由四个核心组件构成:
1. 组件一:特征提取器
特征提取器的功能是将抽象的图转换为计算机可以处理的特征向量,该向量不仅包含图本身的语义和拓扑信息,还包含图在整个图集中的相对位置信息。
- 语义特征提取器:使用GIN模型,通过多层网络聚合每个节点及其邻居的信息,从而理解图的局部和全局结构。然后使用READOUT函数(如取平均值、最大值或总和)将这些节点的特征浓缩成一个固定长度的向量,代表整个图的语义和拓扑信息。
- 结构特征提取器:将源域中的每个图视为一个点,计算所有图点之间的距离(使用语义特征向量的欧氏距离),为每个图点找到最近的k个邻居并用边连接,形成一个新的图之图。这个KNN图再次输入到另一个GIN模型中,学习每个节点的表示,编码图在整个图集中的结构上下文信息。
- 特征拼接:将语义特征向量和结构特征向量首尾相连,形成一个更长的向量,使最终的特征表示同时具备语义和结构信息。
2. 组件二:对抗域分类器
对抗域分类器通过对抗训练,迫使特征提取器提取的图特征向量无法被区分为源域或目标域,从而消除特征中的域身份信息,使源域和目标域的特征分布尽可能对齐,促进知识迁移。
例如,在图像分类任务中,源域可能是晴天拍摄的猫的图片,目标域则是阴天拍摄的猫的图片和一些狗的图片。对抗域分类器的目标是让模型只提取与猫相关的特征,而不是天气特征。
具体流程:特征提取器生成图的特征向量,输入到域分类器,域分类器输出一个概率值,表示该图来自目标域的可能性。使用二分类交叉熵损失函数计算损失,域分类器的目标是最小化损失,而特征提取器的目标是最大化损失,即生成让域分类器犯错的特征。通过这种对抗机制,特征提取器被迫学习与域无关的本质特征。
3. 组件三:单类分类器
单类分类器在源域的正常数据上学习“正常”的概念,尝试在特征空间中划定一个“包围圈”,将所有正常图包含在内。理想情况下,异常图应落在这个圈外。
工作流程:在特征空间中预定义一个中心点,使所有源域正常图的特征向量尽可能靠近这个中心点,从而提炼出正常图的共性特征,形成“正常模式”的基准。损失函数是所有源域图特征到中心点的平均距离,在训练过程中,损失函数会拉扯特征,使正常样本聚集。在推理时,计算目标域图的特征到中心点的距离,距离远的视为异常,距离近的视为正常。同时,它也为类别对齐器提供目标域图的初始伪标签。
4. 组件四:类别分类器
类别分类器旨在解决过渡对齐问题,即在实现域对齐的同时,确保目标域内的类别可分性。具体来说,分别计算源域正常类、目标域中被预测为正常类和被预测为异常类的特征向量的平均中心点。计算对齐损失,损失函数包括两项,前一项希望源域和目标域的正常类中心尽可能接近,后一项希望目标域内部的正常和异常类中心尽可能远离。这是一个动态过程,随着特征提取器和单类分类器的准确性提高,伪标签的可靠性也会提升,从而形成正向循环,改善类对齐效果。
三、实验验证
数据集
- 系统日志图:HDFS、BGL、SPIRIT、THUNDERBIRD
- 字母绘图图:LL、LM、LH(不同扭曲程度)
对比方法
- 无监督图异常检测方法:OCGIN、GLAM、GLocalKD
- 传统域适应方法:ADDA、CDAN、DeepCoral
- 监督方法(上界):iGAD
评估指标
- AUC ROC
- AUC PR
- F1-Score
主要结论
ARMET在18个跨域任务中的13个上取得了最佳性能,显著优于传统UDA方法(后者在源域仅有一类时性能接近随机猜测)。
所有组件均对性能有所贡献(详情见消融实验)。
对于超参数(例如嵌入维度、GIN层数、KNN的k值)表现出一定的鲁棒性。
四、总结:创新点与局限性
创新点:
- 首次提出了跨领域的图级别异常检测问题,并提供了相应的解决方案。
- 开发了ARMET,该方法融合了GNN与对抗域适应技术,特别适合于源域仅包含正常图形的情况。
- 引入了结构特征提取器与类别对齐器,增强了跨域表示的一致性和区分度。
- 通过多个实际数据集证明了所提方法的有效性。
局限性:
- 领域间的关联性较强:如果源域与目标域之间没有足够的相似性,可能会导致负面迁移效果。
- 超参数优化较为复杂:需要在三个不同的损失项之间找到合适的平衡点,增加了调参的难度。
- 伪标签的质量至关重要:类别对齐过程依赖于由单类分类器产生的伪标签,任何初期的错误都可能逐渐累积。
- 缺乏可迁移性的量化评估:当前没有具体指标来衡量不同领域之间的相关程度。
五、疑问解答
1. 组件四存在的理由是什么?
组件四的存在是为了避免特征提取器在试图欺骗域分类器时,采用一种破坏性的策略,即所谓的“过度对齐”。假设一个例子,任务是让AI能够同时在欧洲家庭(源域)和日本家庭(目标域)中识别猫。域分类器(组件二)强烈要求特征提取器忽略背景中的‘欧洲风格’和‘日本风格’元素。然而,特征提取器可能会采取一种极端的方法,不仅模糊背景,还将猫和狗的特征混合,生成一种既非猫也非狗的特征。这样,虽然域分类器无法区分图像来源,但核心任务——识别猫和狗——却完全失败了。从技术角度看,这意味着目标域中的正常图和异常图在特征空间中被错误地对齐和混合了。
2. 在训练初期,组件三生成的伪标签准确性较低,这是否会影响组件四的效果?
在训练开始阶段,类对齐器损失(L_CA)的权重(λ3)可以设置得相对较小,这意味着一类分类器损失(L_SC)和域分类器损失(L_DA)将占据主导地位,构建一个较为稳定的基础特征空间。此时,L_CA更像是一个轻微的指导而非强烈的指令。即便其提供的信息存在噪音,由于权重低,也不会对模型产生重大影响。随着训练的推进,当一类分类器趋于成熟,伪标签的质量提高后,可以逐步加大L_CA的影响力,使其能够做出更精确的调整。


雷达卡


京公网安备 11010802022788号







