[论文解读] Sub-Image Anomaly Detection with Deep Pyramid Correspondences
SPADE 使用多分辨率特征金字塔和最近邻图像对应关系来在无需大量训练的情况下检测并定位图像中的异常。
Nearest neighbor (kNN) methods utilizing deep pre-trained features exhibit very strong anomaly detection performance when applied to entire images. A limitation of kNN methods is the lack of segmentation map describing where the anomaly lies inside the image. In this work we present a novel anomaly segmentation approach based on alignment between an anomalous image and a constant number of the similar normal images. Our method, Semantic Pyramid Anomaly Detection (SPADE) uses correspondences based on a multi-resolution feature pyramid. SPADE is shown to achieve state-of-the-art performance on unsupervised anomaly detection and localization while requiring virtually no training time.
研究动机与目标
- 解决在训练时仅有正常数据可用的情况下定位和分割图像中异常的挑战。
- 开发一种快速、训练量低的异常检测框架,提供像素级定位。
- 利用预训练的深度特征和多分辨率特征金字塔,在不同图像之间实现鲁棒的对应关系。
提出的方法
- 提取预训练的深度特征(ImageNet-resnet)用于整张图像和逐像素位置。
- 使用图像级特征检索K个最近的正常图像以识别正常上下文。
- 从K个最近的正常样本构建逐像素特征库,并为每个像素计算密集对应。
- 将每个像素的异常分数计算为其在库中最近kappa个特征的平均距离。
- 通过连接多级ResNet特征来使用特征金字塔,以在不同上下文中实现鲁棒的像素对应。
- 当局部特征距离超过阈值时将像素标注为异常,然后对最终映射进行高斯平滑。
实验结果
研究问题
- RQ1基于KNN的、依赖对应关系的方法是否能够在没有明确异常训练数据的情况下定位子图像异常?
- RQ2将多尺度特征金字塔引入是否比单尺度特征提高像素级定位精度?
- RQ3在工业(MVTech)和安防(Shanghai Tech Campus)数据集上的图像级和像素级指标表现如何?
- RQ4使用预训练的ImageNet特征与自监督学习特征在异常检测与定位上的影响有什么差异?
主要发现
- SPADE 在 MVTech 与 Shanghai Tech Campus 数据集上的子图像异常检测与定位达到最新水平。
- 使用多层特征金字塔在像素级定位精度上优于单层特征。
- 该方法在图像级异常检测方面表现出色,并在像素级ROCAUC和PRO分数方面显著优于若干自编码器方法。
- 该方法几乎不需要训练时间,除了提取预训练特征和最近邻搜索之外。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。