[論文レビュー] APRIL-GAN: A Zero-/Few-Shot Anomaly Classification and Segmentation Method for CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on Zero-shot AD and 4th Place on Few-shot AD
この研究は、CLIPに追加の線形変換とメモリーバンクを導入してゼロショット/少数ショットの異常分類とセグメンテーションを実現し、VANDチャレンジでゼロショットのトップランクと少数ショット分類の高い性能を達成します。
In this technical report, we briefly introduce our solution for the Zero/Few-shot Track of the Visual Anomaly and Novelty Detection (VAND) 2023 Challenge. For industrial visual inspection, building a single model that can be rapidly adapted to numerous categories without or with only a few normal reference images is a promising research direction. This is primarily because of the vast variety of the product types. For the zero-shot track, we propose a solution based on the CLIP model by adding extra linear layers. These layers are used to map the image features to the joint embedding space, so that they can compare with the text features to generate the anomaly maps. Besides, when the reference images are available, we utilize multiple memory banks to store their features and compare them with the features of the test images during the testing phase. In this challenge, our method achieved first place in the zero-shot track, especially excelling in segmentation with an impressive F1 score improvement of 0.0489 over the second-ranked participant. Furthermore, in the few-shot track, we secured the fourth position overall, with our classification F1 score of 0.8687 ranking first among all participating teams.
研究の動機と目的
- 産業用異常検知において各カテゴリごとの大規模データを必要とせず、迅速な適応を促進する。
- CLIPの言語–視覚整合性を活用してゼロショットの異常分類とセグメンテーションを導く。
- 局所化を強化するため、段階的特徴マッピングを統合埋め込み空間へ統合する。
- 少数ショット設定において、メモリーバンクを介して参照画像を活用し、ゼロショット成分を保持しつつ検出性能を向上させる。
提案手法
- CLIPを基盤としてゼロショット分類とセグメンテーションを可能にする。
- 各段階に対し線形マッピングを追加し、画像特徴をテキスト–画像類似性の統合埋め込み空間へ写像する。
- 浅い段階と深い段階の特徴を融合し、段階ごとのテキスト特徴との類似性から異常マップを生成する(式3)。
- テキストプロンプトのアンサンブル(状態レベルとテンプレレベル)を用いて異常記述の頑健なテキスト特徴を取得する。
- 少数ショットでは、線形層の重みを維持し、エンコーダ各段の参照特徴をメモリーバンクに格納してテスト時の比較に用いる(式4)。
- CLIPを凍結したまま、追加の線形層のみを焦点喪失関数(Focal+Dice)で訓練する。
実験結果
リサーチクエスチョン
- RQ1CLIPベースのフレームワークを産業画像のゼロショット異常検知・セグメンテーションへ拡張できるか。
- RQ2段階的特徴マッピングとテキストプロンプトアンサンブルを組み込むとゼロショットAD性能は向上するか。
- RQ3メモリーバンクを用いたメモリ増強は、マッピング層の微調整なしで少数ショットの異常セグメンテーションに利益をもたらすか。
- RQ4提案手法は標準的なADデータセット(MVTec AD, VisA)およびVANDテストセットでどう性能を示すか。
主な発見
| Team | F1-max | F1-max-segm | F1-max-cls | Rank |
|---|---|---|---|---|
| AaxJIjQ | 0.2788 | 0.2019 | 0.7742 | 5 |
| MediaBrain | 0.2880 | 0.1866 | 0.7945 | 4 |
| Variance Vigilance Vanguard | 0.3217 | 0.2197 | 0.7928 | 3 |
| SegmentAnyAnomaly | 0.3956 | 0.2942 | 0.7517 | 2 |
| APRIL-GAN (Ours) | 0.4589 | 0.3431 | 0.7782 | 1 |
- ゼロショットVANDで、APRIL-GANはセグメンテーションのF1-maxが0.3431、分類のF1-maxが0.7782で1位。
- 少数ショットVANDで、分類F1-maxが0.8687(分類で1位)、F1-max-segmが0.4264。
- MVTec ADのゼロショットでAUROC-segmが87.6、F1-max-segmが43.3;本手法はAUROC-segでWinCLIPを2.5ポイント、F1-max-segで11.6ポイント上回る。
- VisAのゼロショットでAUROC-segmが95.5近辺(注記あり)・F1-max-segmが32.3と高水準のゼロショットセグメンテーションを示す;分類指標は上位と拮抗する。
- VisAの少数ショットではAPRIL-GANが強力な分類性能を示し、メモリーバンク使用時にはPRO-segmで顕著な改善を見せる。
- ゼロショット/少数ショットの設定を通じて、多段階特徴マッピングとメモリーバンクは偽陽性を抑えつつ異常局在の精度向上に寄与する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。