QUICK REVIEW

[論文レビュー] WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation

Jongheon Jeong, Yang Zou|arXiv (Cornell University)|Mar 26, 2023

Anomaly Detection Techniques and Applications被引用数 12

ひとこと要約

WinCLIP は Window-based CLIP (WinCLIP) を導入し、ゼロショット/少数ショットの異常分類とセグメンテーションを実現します。WinCLIP+ は少数の正常リファレンスを活用します。両方とも、タスク固有のチューニングなしで MVTec-AD および VisA における最先端手法を上回ります。

ABSTRACT

Visual anomaly classification and segmentation are vital for automating industrial quality inspection. The focus of prior research in the field has been on training custom models for each quality inspection task, which requires task-specific images and annotation. In this paper we move away from this regime, addressing zero-shot and few-normal-shot anomaly classification and segmentation. Recently CLIP, a vision-language model, has shown revolutionary generality with competitive zero-/few-shot performance in comparison to full-supervision. But CLIP falls short on anomaly classification and segmentation tasks. Hence, we propose window-based CLIP (WinCLIP) with (1) a compositional ensemble on state words and prompt templates and (2) efficient extraction and aggregation of window/patch/image-level features aligned with text. We also propose its few-normal-shot extension WinCLIP+, which uses complementary information from normal images. In MVTec-AD (and VisA), without further tuning, WinCLIP achieves 91.8%/85.1% (78.1%/79.6%) AUROC in zero-shot anomaly classification and segmentation while WinCLIP+ does 93.1%/95.2% (83.8%/96.4%) in 1-normal-shot, surpassing state-of-the-art by large margins.

研究の動機と目的

視覚的欠陥の不足と長尾問題に対処し、ゼロショット/少数ショットの異常分類とセグメンテーションを実現する。
言語駆動のプロンプトを用いて視覚と言語モデル（CLIP）を活用し、正常/異常状態を定義する。
タスク固有のチューニングを要せず、ピクセルレベルの異常セグメンテーションを可能にする窓ベースの特徴抽出とマルチスケール集約を開発する。
単純な参照結合メカニズムを介して、少数の正常リファレンス画像を組み込み、性能をさらに向上させる。

提案手法

状態語とテンプレートを用いて、頑健な二値プロンプト（正常 vs. 異常）を生成する Compositional Prompt Ensemble (CPE) を導入する。
WinCLIP を開発する：テキストと整合した多スケールのウィンドウ/パッチ特徴を抽出・集約し、ゼロショットの異常セグメンテーションを実現する窓ベースの CLIP。
ウィンドウレベルのスコアから密な異常マップを生成するため、調和的集約と多スケール融合を適用する。
WinCLIP+ を提案する。これは参照正常画像を用いて多スケール特徴メモリを形成し、言語誘導と視覚的手掛かりを統合して few-normal-shot な異常認識を行う。
Across scales にわたって、言語誘導の予測とメモリベースの視覚予測を融合する、単純な参照結合メカニズムを定義する。

実験結果

リサーチクエスチョン

RQ1CLIPベースの言語プロンプトを、ゼロショット/少数ショットの異常分類とセグメンテーションの実行に効果的に設計できるか。
RQ2窓ベースのマルチスケール特徴抽出アプローチは言語との整合を改善し、微調整なしでピクセルレベルの異常セグメンテーションを可能にするか。
RQ3少数の正常リファレンス画像は、単純なメモリベースの結合機構を通じてゼロショット/少数ショットの異常性能をさらに向上させるか。

主な発見

WinCLIP は、MVTec-AD および VisA において、タスク固有のチューニングなしで強力なゼロショットの異常分類とセグメンテーションを実現する（AC: 0-shot; AS: 0-shot）。
Compositional Prompt Ensemble (CPE) は、状態語とテンプレートを用いたゼロショットの異常分類を素朴な CLIP プロンプトと比較して大幅に改善する。
WinCLIP は、ウィンドウベースの特徴抽出（F^W）を導入し、ピクセルレベルの異常セグメンテーションに適した密な、言語整合性の高い特徴を提供し、パッチトークンや画像タイルのベースラインを上回る。
重ね合わせるウィンドウ上の調和的集約と多スケール融合は、様々なサイズの欠陥に対するセグメンテーションの頑健性を向上させる。
WinCLIP+ は、参照結合メモリを介して少数の正常リファレンス画像を活用し、1〜4ショット設定で異常分類とセグメンテーションをさらに向上させ、従来の少数ショット手法を上回る。
表全体において、WinCLIP/WinCLIP+ は AC および AS 指標で MVTec-AD および VisA の最先端手法を大きく上回り、ゼロショットおよび少数ショット設定で、いくつかのケースで競合するフルショットのベースラインを達成している。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。