QUICK REVIEW

[论文解读] WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation

Jongheon Jeong, Yang Zou|arXiv (Cornell University)|Mar 26, 2023

Anomaly Detection Techniques and Applications被引用 12

一句话总结

WinCLIP 引入基于窗口的 CLIP（WinCLIP）用于零-shot/少-shot 异常分类与分割，WinCLIP+ 利用少量正常参考；二者在 MVTec-AD 和 VisA 上均优于现有方法且无需特定任务微调。

ABSTRACT

Visual anomaly classification and segmentation are vital for automating industrial quality inspection. The focus of prior research in the field has been on training custom models for each quality inspection task, which requires task-specific images and annotation. In this paper we move away from this regime, addressing zero-shot and few-normal-shot anomaly classification and segmentation. Recently CLIP, a vision-language model, has shown revolutionary generality with competitive zero-/few-shot performance in comparison to full-supervision. But CLIP falls short on anomaly classification and segmentation tasks. Hence, we propose window-based CLIP (WinCLIP) with (1) a compositional ensemble on state words and prompt templates and (2) efficient extraction and aggregation of window/patch/image-level features aligned with text. We also propose its few-normal-shot extension WinCLIP+, which uses complementary information from normal images. In MVTec-AD (and VisA), without further tuning, WinCLIP achieves 91.8%/85.1% (78.1%/79.6%) AUROC in zero-shot anomaly classification and segmentation while WinCLIP+ does 93.1%/95.2% (83.8%/96.4%) in 1-normal-shot, surpassing state-of-the-art by large margins.

研究动机与目标

解决视觉缺陷稀缺性与长尾问题，从而实现零-shot/少-shot 异常分类与分割。
利用视觉-语言模型（CLIP）结合语言驱动的提示来定义正常/异常状态。
开发基于窗口的特征提取与多尺度聚合，以在无需任务特定微调的情况下实现像素级异常分割。
引入少量正常参考图像，通过简单的参考关联机制进一步提升性能。

提出的方法

引入 Compositional Prompt Ensemble (CPE) 来使用状态词与模板生成鲁棒的两类提示（正常 vs. 异常）。
开发 WinCLIP：一个基于窗口的 CLIP，提取并聚合与文本对齐的多尺度窗口/补丁特征，用于零-shot 异常分割。
应用谐波聚合和多尺度融合，从窗口层面的分数产生密集的语言对齐异常图。
提出 WinCLIP+，利用参考正常图像形成多尺度特征记忆，并在语言引导与视觉线索之间进行聚合，以实现少数正常样本下的异常识别。
定义一个简单的参考关联机制，在各尺度上融合语言引导的预测与基于记忆的视觉预测。

实验结果

研究问题

RQ1是否可以有效设计基于 CLIP 的语言提示来执行零-shot/少-shot 异常分类与分割？
RQ2基于窗口的多尺度特征提取方法是否能改善与语言的对齐并在不微调的情况下实现像素级异常分割？
RQ3少量正常参考图像是否可以通过简单的基于记忆的关联机制进一步提升零-shot/少-shot 异常性能？

主要发现

WinCLIP 在 MVTec-AD 与 VisA 上实现强烈的零-shot 异常分类与分割，且无需任务特定微调（AC: 0-shot; AS: 0-shot）。
Compositional Prompt Ensemble (CPE) 结合状态词与模板显著提升零-shot 异常分类相较于天真的 CLIP 提示。
WinCLIP 引入基于窗口的特征提取（F^W），可产生密集的、与语言对齐的特征，适用于像素级异常分割，优于补丁令牌和图像切分基线。
对重叠窗口的谐波聚合和多尺度融合提升对不同尺寸缺陷的分割鲁棒性。
WinCLIP+ 通过参考关联记忆使用少量正常参考图像，在1-到4-shot 设置下进一步提升异常分类和分割，优于先前的少样本方法。
在各种表格中，WinCLIP/WinCLIP+ 在 MVTec-AD 与 VisA 的 AC 和 AS 指标上超越最先进方法，零-shot与少-shot设置在某些情况下达到与全火线基线相竞争的水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。