[论文解读] MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images
MuSc 在未标注测试图像之间进行互相评分的零样本异常分类与分割,省略训练数据或提示,并在 MVTec AD 和 VisA 上取得零样本最先进的结果。
This paper studies zero-shot anomaly classification (AC) and segmentation (AS) in industrial vision. We reveal that the abundant normal and abnormal cues implicit in unlabeled test images can be exploited for anomaly determination, which is ignored by prior methods. Our key observation is that for the industrial product images, the normal image patches could find a relatively large number of similar patches in other unlabeled images, while the abnormal ones only have a few similar patches. We leverage such a discriminative characteristic to design a novel zero-shot AC/AS method by Mutual Scoring (MuSc) of the unlabeled images, which does not need any training or prompts. Specifically, we perform Local Neighborhood Aggregation with Multiple Degrees (LNAMD) to obtain the patch features that are capable of representing anomalies in varying sizes. Then we propose the Mutual Scoring Mechanism (MSM) to leverage the unlabeled test images to assign the anomaly score to each other. Furthermore, we present an optimization approach named Re-scoring with Constrained Image-level Neighborhood (RsCIN) for image-level anomaly classification to suppress the false positives caused by noises in normal images. The superior performance on the challenging MVTec AD and VisA datasets demonstrates the effectiveness of our approach. Compared with the state-of-the-art zero-shot approaches, MuSc achieves a $ extbf{21.1%}$ PRO absolute gain (from 72.7% to 93.8%) on MVTec AD, a $ extbf{19.4%}$ pixel-AP gain and a $ extbf{14.7%}$ pixel-AUROC gain on VisA. In addition, our zero-shot approach outperforms most of the few-shot approaches and is comparable to some one-class methods. Code is available at https://github.com/xrli-U/MuSc.
研究动机与目标
- 通过利用未标注测试图像中的丰富线索来推动零样本的 AC/AS。
- 开发能够检测不同尺度异常的补丁级表示。
- 引入一种互相评分机制,仅使用未标注图像来分配异常分数。
- 优化图像级别的异常分类,以减少来自正常图像噪声的误报。
提出的方法
- 使用多尺度局部邻域聚合(LNAMD)对补丁令牌进行多尺度编码。
- 应用互相评分机制(MSM),使未标注图像对彼此的补丁进行评分以推断异常可能性。
- 通过对多个 ViT 阶段和聚合度取平均来计算补丁级别的异常分数。
- 引入带受限图像级邻域的重新评分(RsCIN),利用邻域图来细化图像级别的异常分类。
- 可选地在细化图像级分数时使用多窗口掩码操作(MMO),以将影响限制在局部邻域。
- 使用 ViT-L/14-336 预训练骨干网络,在分割和分类之前聚合补丁级特征。
实验结果
研究问题
- RQ1是否未标注的测试图像能够提供足够的线索以在零样本的 AC/AS 中区分正常与异常补丁?
- RQ2在多个邻域尺度下聚合补丁特征是否能改善不同尺寸的异常检测?
- RQ3是否可以通过利用未标注数据的互相评分方案实现像素级分割,而无需任何标注的训练数据?
- RQ4带有受限邻域的图像级重新评分是否能提升整体的异常分类性能?
- RQ5与现有的零样本和少样本方法相比,MuSc 在标准工业异常数据集上的表现如何?
主要发现
| 数据集 | 方法 | 设置 | AUROC-分类 | F1-最大-分类 | AP-分类 | AUROC-分割 | F1-最大-分割 | AP-分割 | PRO-分割 |
|---|---|---|---|---|---|---|---|---|---|
| MVTec AD | WinCLIP | 0-shot | 91.8 | 92.9 | 96.5 | 85.1 | 31.7 | - | 64.6 |
| MVTec AD | APRIL-GAN | 0-shot | 86.1 | 90.4 | 93.5 | 87.6 | 43.3 | 40.8 | 44.0 |
| MVTec AD | ACR | 0-shot | 85.8 | 91.3 | 92.9 | 92.5 | 44.2 | 38.9 | 72.7 |
| MVTec AD | MuSc (ours) | 0-shot | 97.8 | 97.5 | 99.1 | 97.3 | 62.6 | 62.7 | 93.8 |
| VisA | WinCLIP | 0-shot | 78.1 | 79.0 | 81.2 | 79.6 | 14.8 | - | 56.8 |
| VisA | MuSc (ours) | 0-shot | 92.8 | 89.5 | 93.5 | 98.8 | 48.8 | 45.1 | 92.7 |
- MuSc 在零样本设置下在 MVTec AD 上达到 97.8 AUROC 和 97.5 F1-max 的分类性能,以及 97.3 AP 的分割性能,超越若干零样本基线。
- MuSc 在 VisA 的零样本下达到 98.8 AUROC 和 92.7 AP 的分割性能,超越大多数零样本对手。
- 在异常分割方面,MuSc 相较于第二优秀的零样本方法在 MVTec AD 上将 PRO 提升了 21.1 个百分点、AP 提升了 21.9 个百分点。
- MuSc 在可比任务上优于许多少样本方法(如 4-shot),并且与某些全样本方法具有竞争力。
- 消融研究表明,使用多聚合度(r 在 {1,3,5})和最小百分比采样的 MSM 可以获得最佳的 AC/AS 性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。