[論文レビュー] AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models
AG-VAS は、絶対的な [SEG] および相対的な [NOR]/[ANO] セマンティックアンカーを導入し、大規模マルチモーダルモデルでのゼロショット視覚異常セグメンテーションを可能にします。SPAM アラインメントと AGMD マスクデコーディングを併用し、産業・医療のベンチマークで最先端の結果を達成します。
Large multimodal models (LMMs) exhibit strong task generalization capabilities, offering new opportunities for zero-shot visual anomaly segmentation (ZSAS). However, existing LMM-based segmentation approaches still face fundamental limitations: anomaly concepts are inherently abstract and context-dependent, lacking stable visual prototypes, and the weak alignment between high-level semantic embeddings and pixel-level spatial features hinders precise anomaly localization. To address these challenges, we present AG-VAS (Anchor-Guided Visual Anomaly Segmentation), a new framework that expands the LMM vocabulary with three learnable semantic anchor tokens-[SEG], [NOR], and [ANO], establishing a unified anchor-guided segmentation paradigm. Specifically, [SEG] serves as an absolute semantic anchor that translates abstract anomaly semantics into explicit, spatially grounded visual entities (e.g., holes or scratches), while [NOR] and [ANO] act as relative anchors that model the contextual contrast between normal and abnormal patterns across categories. To further enhance cross-modal alignment, we introduce a Semantic-Pixel Alignment Module (SPAM) that aligns language-level semantic embeddings with high-resolution visual features, along with an Anchor-Guided Mask Decoder (AGMD) that performs anchor-conditioned mask prediction for precise anomaly localization. In addition, we curate Anomaly-Instruct20K, a large-scale instruction dataset that organizes anomaly knowledge into structured descriptions of appearance, shape, and spatial attributes, facilitating effective learning and integration of the proposed semantic anchors. Extensive experiments on six industrial and medical benchmarks demonstrate that AG-VAS achieves consistent state-of-the-art performance in the zero-shot setting.
研究の動機と目的
- 安定した視覚プロトタイプの欠如と、ゼロショット視覚異常セグメンテーション(ZSAS)におけるクロスモーダル整合の弱さに対処する。
- LMM の埋め込みとピクセルレベルのセグメンテーションを橋渡しする学習可能なセマンティックアンカーを導入する。
- クロスモーダル整合とアンカー条件付きマスクデコーディングのモジュールを開発し、バイナリ異常マスクを生成する。
- Anomaly-Instruct20K を作成して、LMM に異常関連の世界知識を注入する。
- 産業および医療データセットでカテゴリ固有の再訓練なしに、最先端の ZSAS 性能を示す。
提案手法
- 異常の外観・構造・位置の手がかりをエンコードする絶対セマンティックアンカー [SEG] を導入する。
- 正常-異常の文脈対比をモデル化する相対アンカー [NOR] および [ANO] を含める。
- Semantic–Pixel Alignment Module (SPAM) を追加して、LMM のセマンティック埋め込みを高解像度のピクセル特徴と整合させる。
- refined なアンカー埋め込みを用いてバイナリな異常マスクを双方向のクロスアテンションで生成する Anchor-Guided Mask Decoder (AGMD) を開発する。
- アンカーを跨ぐ多タスク目的関数(テキスト自回帰損失とセグメンテーション損失 BCE + Dice の組み合わせ)で訓練する。
- Anomaly-Instruct20K を作成して、分割のための指示チューニングに構造化された異常知識を注入する。
実験結果
リサーチクエスチョン
- RQ1学習可能なセマンティックアンカーは、ZSAS において高レベルの LMM セマンティクスとピクセルレベルのセグメンテーションを橋渡しできるか。
- RQ2SPAM はセマンティック埋め込みとピクセル特徴間のクロスモーダル整合をどう改善するか。
- RQ3アンカー誘導デコードは、産業・医療分野のゼロショット設定で信頼性のある二値化異常マスクを生み出すか。
- RQ4指示チューニングデータ(Anomaly-Instruct20K)のゼロショット一般化への影響はどうか。
- RQ5AG-VAS は通常サンプルの排除をどの程度強く行いながら、異常の正確な局在性を保つか。
主な発見
- AG-VAS は六つの産業/医療ベンチマークで最先端のゼロショット異常セグメンテーションを達成。
- アブレーション実験で [SEG] を削除するとすべての指標が悪化する一方、[NOR]/[ANO] の削除は主に正常-異常の対比指標を悪化させる。
- SPAM は整合性とマスク品質を向上させ、その除去は性能を低下させる。
- Anomaly-Instruct20K および Anomaly-Seg20K は、一般的なセグメンテーションデータを超えた異常セグメンテーション性能に有意な寄与をする。
- 直接的なセグメンテーションは通常は描述モードより優れているが、Describe-then-Segment-Plus が文脈理解を改善できる場合がある。
- モデルは通常サンプルの排除を強力に示す(報告結果で IoU_nor は最大 87.7% まで)、一方で異常局在は堅牢(IoU_ano 約 45%)を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。