BTAD 工业异常数据集
这是一篇关于基于视觉转换器的图像异常检测和定位网络的学术论文,主要介绍了VT-ADL模型及其在图像异常检测和定位中的应用。以下是对这些核心内容的简要概述:
VT-ADL模型概述:
模型背景:VT-ADL是一种基于视觉转换器的图像异常检测和定位网络,结合了重建方法和斑块嵌入,利用转换网络保留嵌入斑块的空间信息。
应用场景:适用于视频监控、缺陷分割、质检、医疗影像、金融交易等领域的异常检测。
数据集发布:同时发布了BTAD数据集,包含2830张真实工业产品图像,用于异常检测任务。
相关研究:
传统方法:早期使用图像处理和机器学习方法,如贝叶斯网络、基于规则的系统、聚类算法等。
深度学习方法:近年来转向使用卷积层进行图像重建,如自动编码器、生成对抗网络(GAN)等。
监督与无监督学习:一些方法采用完全监督或半监督学习方式,仅使用正常数据进行训练,通过学习“正常性”模型来检测异常。
VT-ADL模型架构:
图像分割与嵌入:将输入图像分割成斑块,通过线性层嵌入到D维嵌入空间,并添加位置嵌入以保留位置信息。
转换编码器:基于Vaswani等人的工作,使用多头自注意力机制和MLP块处理嵌入斑块,不使用丢弃层以保持高斯近似网络的稳定性。
解码器:使用转置卷积层将重建向量解码回原始图像形状,最后一层使用tanh作为非线性激活函数。
高斯混合密度网络(GMM):建模潜在特征的分布,估计正常数据的条件分布,用于异常定位。
目标函数与损失:
重建损失:结合均方误差(MSE)和结构相似性指数(SSIM)损失,迫使解码器输出接近网络输入。
对数似然损失(LL):用于训练GMM,通过最大化正常类训练数据的条件对数似然来拟合参数。
正则化:在训练过程中向转换嵌入特征添加高斯噪声,作为数据增强和正则化手段。
最终损失函数:综合上述三种损失进行加权求和,最小化该目标函数以优化模型性能。
实验结果与分析:
数据集使用:在MNIST、MVTec和BTAD数据集上进行实验,MNIST用于全局异常检测,MVTec和BTAD用于异常定位。
性能评估:使用AUC(ROC曲线下面积)和PRO(每区域重叠)作为评估指标,VT-ADL在多个数据集上表现出色。
高斯混合模型调优:通过增加高斯数量优化PRO分数,添加噪声有助于泛化性能。
BTAD 工业异常数据集
(85 Bytes, 需要: RMB 18 元)


雷达卡


京公网安备 11010802022788号







