[論文レビュー] Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection
0-shot, カテゴリ非依存の異常検知器を提案。ランダム語拡張で生成された多様な CLIP テキスト埋め込みを用いて訓練し、推論時の対象オブジェクトプロンプトを不要とする。いくつかのベンチマークでプロンプトアンサンブルのベースラインを上回るか同等の性能を達成。
This paper presents a novel method that leverages a visual-language model, CLIP, as a data source for zero-shot anomaly detection. Tremendous efforts have been put towards developing anomaly detectors due to their potential industrial applications. Considering the difficulty in acquiring various anomalous samples for training, most existing methods train models with only normal samples and measure discrepancies from the distribution of normal samples during inference, which requires training a model for each object category. The problem of this inefficient training requirement has been tackled by designing a CLIP-based anomaly detector that applies prompt-guided classification to each part of an image in a sliding window manner. However, the method still suffers from the labor of careful prompt ensembling with known object categories. To overcome the issues above, we propose leveraging CLIP as a data source for training. Our method generates text embeddings with the text encoder in CLIP with typical prompts that include words of normal and anomaly. In addition to these words, we insert several randomly generated words into prompts, which enables the encoder to generate a diverse set of normal and anomalous samples. Using the generated embeddings as training data, a feed-forward neural network learns to extract features of normal and anomaly from CLIP's embeddings, and as a result, a category-agnostic anomaly detector can be obtained without any training images. Experimental results demonstrate that our method achieves state-of-the-art performance without laborious prompt ensembling in zero-shot setups.
研究の動機と目的
- 推論時にオブジェクトカテゴリのプロンプトを必要としないカテゴリ非依存の異常検知を動機づける。
- 多様な訓練埋め込みをNormal と Anomalous のサンプルで生成するためにCLIPをデータ源として活用する。
- 労力がかかるプロンプトアンサンブルを排し、ランダム語データ拡張を用いて頑健な検知器を作成する。
- 標準的な AD ベンチマーク(MVTec-AD、VisA)および実世界の多様な異常データセット(SewerML)で競争力のゼロショット性能を示す。
提案手法
- Normal と Anomaly の語を用いた二クラスのプロンプトテンプレートで CLIP ベースの異常スコアを導く。
- プロンプトにランダムに生成した語を挿入して多様な埋め込みペアを作成することで、Normal と Anomalous のサンプルを表現するランダム語データ拡張を導入する。
- オブジェクト固有の訓練画像を用いずに Normal 対 Anomaly を分類するため、CLIP のテキスト埋め込み上で4層のフィードフォワードネットワーク(FNN)を訓練する。
- 訓練済みFNNを用いた画像埋め込みから異常スコアを取得し、必要に応じてCLIPベースのプロンプトスコアと組み合わせる。
- 未知物体設定および既知物体設定でゼロショット性能を評価し、他のCLIPベーススコア(s_pr、s_img)との組み合わせを検討する。
- プロンプトアンサンブルを訓練ループから除外して煩雑なプロンプティングを避けつつ、高いゼロショット性能を達成する。
実験結果
リサーチクエスチョン
- RQ1CLIP を訓練データ源として用い、推論時にターゲットオブジェクト情報が不要なカテゴリ非依存の異常検知器を構築できるか。
- RQ2ランダム語データ拡張は未知のオブジェクトカテゴリ間でNormalとAnomalousを区別する埋め込みの多様性を十分提供するか。
- RQ3提案手法はゼロショット設定で標準のADベンチマークにおけるプロンプト誘導ADおよびプロンプトアンサンブルベースラインと比較してどの程度優れているか。
- RQ4ランダムプロンプト対の数(N_p)と語の選択がゼロショット性能に与える影響はどの程度か。
主な発見
- 提案手法はMVTec-ADとVisAで競争的なゼロショット性能を達成し、多くの場合未知オブジェクト設定でCLIPベースのプロンプト誘導ADおよびWinCLIPを上回る。
- CLIP + ours は未知オブジェクト設定でCLIP単独を一貫して改善し、オブジェクトカテゴリが指定されていない場合に顕著な向上を示す。
- ランダム語データ拡張は多様な埋め込みを提供し、カテゴリ非依存のFNNが訓練済みオブジェクト特定データなしで異常を検出できる。
- SewerML では、プロンプト誘導AD なしの手法が三手法中で最良の性能を示し、多様性の高い欠陥に対する頑健性を強調する。
- 最適な結果は N_p = 10,000 の訓練ペア付近で観察される。ペアが少なすぎるまたは多すぎると過学習/アンダーフィットのため性能が低下しうる。
- この手法は各データセットで強力なAUROC、AUPR、F1-maxを達成し、ゼロショット評価では CLIP + ours の組み合わせがしばしば最良のスコアを生む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。