QUICK REVIEW

[论文解读] Anomaly localization by modeling perceptual features

David Dehaene, Pierre Eline|arXiv (Cornell University)|Aug 12, 2020

Anomaly Detection Techniques and Applications参考文献 24被引用 28

一句话总结

本文提出特征增强变分自编码器（FAVAE），通过在像素空间和从预训练VGG16网络提取的感知特征空间中联合重建图像，提升异常检测与定位性能。通过建模ImageNet预训练的高层特征，FAVAE在MVTec AD数据集上实现了最先进性能，显著优于基线VAE和以往方法，在异常检测与定位任务中均表现更优。

ABSTRACT

Although unsupervised generative modeling of an image dataset using a Variational AutoEncoder (VAE) has been used to detect anomalous images, or anomalous regions in images, recent works have shown that this method often identifies images or regions that do not concur with human perception, even questioning the usability of generative models for robust anomaly detection. Here, we argue that those issues can emerge from having a simplistic model of the anomaly distribution and we propose a new VAE-based model expressing a more complex anomaly model that is also closer to human perception. This Feature-Augmented VAE is trained by not only reconstructing the input image in pixel space, but also in several different feature spaces, which are computed by a convolutional neural network trained beforehand on a large image dataset. It achieves clear improvement over state-of-the-art methods on the MVTec anomaly detection and localization datasets.

研究动机与目标

解决标准VAE在检测与人类感知一致的异常（尤其是罕见或结构复杂的异常）时的局限性。
克服标准VAE对异常样本赋予比正常样本更高似然值的问题，该现象与人类判断相悖。
通过引入来自预训练网络的多尺度高层特征，而非仅依赖像素重建，提升异常定位性能。
证明ImageNet训练模型提取的感知有意义特征对于超越像素级重建的鲁棒异常建模至关重要。
建立一个同时建模像素与感知特征分布的框架，以更好地反映人类在异常检测中的感知。

提出的方法

训练变分自编码器（VAE）以在像素空间和从预训练VGG16网络提取的多个中间特征空间中重建输入图像。
将VGG16的第2、3和4个最大池化层（激活前）的特征图用作感知特征重建目标。
通过像素空间与感知特征空间中L2损失的加权和，联合优化VAE。
在训练期间对特征提取器应用梯度截断，防止其微调，从而保留其预训练的、具有感知意义的特征。
使用在两个空间中重建样本的对数似然作为异常评分，得分越高表示越正常。
在可视化前对异常图应用直方图均衡化，并使用jet颜色映射以确保跨数据集的一致性定性比较。

实验结果

研究问题

RQ1在VAE中建模预训练网络的感知特征，是否能超越像素级重建，在异常检测与定位方面实现性能提升？
RQ2使用ImageNet训练模型提取的高层可迁移特征，是否能提升异常检测与人类感知的一致性？
RQ3不同配置的特征提取器（如随机权重、微调或冻结）如何影响异常定位性能？
RQ4性能提升是源于多尺度特征表示，还是特定于预训练带来的感知有意义特征？
RQ5一个能够同时重建像素与深层特征的统一模型，是否能在MVTec AD等基准数据集上超越现有最先进方法？

主要发现

使用VGG16特征的FAVAE在MVTec AD数据集的所有子集上均达到最先进性能，显著优于基线VAE和先前SOTA方法。
采用预训练VGG16特征提取器的模型（M 3b）在检测（AUROC）与定位（像素AUROC）任务中均取得最佳结果，证实了感知有意义特征的重要性。
使用随机初始化的VGG16权重（M 3b）或编码器自编码的特征（M 3b）均优于基线VAE，表明即使无预训练，多尺度特征也能提升定位性能。
当允许特征提取器被微调时（M 3b 和 M 3b），性能显著下降，表明未经修改的预训练特征对模型鲁棒性至关重要。
消融实验证实，ImageNet预训练的感知特征不可或缺——使用随机或可训练特征的模型性能劣于使用冻结预训练特征的模型。
FAVAE在无需超参数调优的情况下实现优异性能，证明其在工业检测中多样异常类型下的鲁棒性与泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。