[論文レビュー] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models
要約: 本論文は Anomaly-OV を提案する。これはゼロショット異常検知と推論の専門的なビジュアルアシスタントであり、巨大規模の視覚指示データセット (Anomaly-Instruct-125k) と VisA-D&R ベンチマークを提供し、汎用の MLLMs に比べて大幅な改善を示す。さらに 3D および医療の異常検知へも拡張している。
Zero-Shot Anomaly Detection (ZSAD) is an emerging AD paradigm. Unlike the traditional unsupervised AD setting that requires a large number of normal samples to train a model, ZSAD is more practical for handling data-restricted real-world scenarios. Recently, Multimodal Large Language Models (MLLMs) have shown revolutionary reasoning capabilities in various vision tasks. However, the reasoning of image abnormalities remains underexplored due to the lack of corresponding datasets and benchmarks. To facilitate research in AD & reasoning, we establish the first visual instruction tuning dataset, Anomaly-Instruct-125k, and the evaluation benchmark, VisA-D&R. Through investigation with our benchmark, we reveal that current MLLMs like GPT-4o cannot accurately detect and describe fine-grained anomalous details in images. To address this, we propose Anomaly-OneVision (Anomaly-OV), the first specialist visual assistant for ZSAD and reasoning. Inspired by human behavior in visual inspection, Anomaly-OV leverages a Look-Twice Feature Matching (LTFM) mechanism to adaptively select and emphasize abnormal visual tokens. Extensive experiments demonstrate that Anomaly-OV achieves significant improvements over advanced generalist models in both detection and reasoning. Extensions to medical and 3D AD are provided for future study. The link to our project page: https://xujiacong.github.io/Anomaly-OV/
研究の動機と目的
- データ制約のある現実世界シナリオでのゼロショット異常検知 (ZSAD) を動機づける。
- 異常検知と推論のためのビジュアル指示チューニングデータセットを作成する。
- トークンレベルの異常専門知識を活用してLLMを導く専門的ビジュアルアシスタント (Anomaly-OV) を開発する。
- 産業、医療、3D ドメインを跨いで、一般的な MLLMs よりも検知と推論を改善することを示す。
提案手法
- LLaVA-OneVision を基盤のMLLMとして使用し、異常専門家を導入してトークン選択を導く。
- Look-Twice Feature Matching (LTFM) を実装し、グローバルなオブジェクト埋め込みと正/負の異常埋め込みを融合してクラス認識型の異常記述を生成する。
- Q-Former を用いた Visual Token Selector (VT Selector) を導入し、LLM の疑わしい視覚トークンを強調・プーリングする。
- 二段階のパイプラインを訓練する: (1) Anomaly-Instruct-125k で専門異常専門家を訓練、(2) 専門家とエンコーダを凍結し、投影器とLLM を訓練可能な状態で視覚指示チューニングを行う。
- An indication prompt に <adv> を適用して、異常の可能性が高い場合に疑わしい特徴を強調する。
- 3D および医療分野へ拡張して一般化を示す。
実験結果
リサーチクエスチョン
- RQ1専門の異常専門家は、一般的モデルを超えてマルチモーダルLLMにおけるゼロショット異常検知と推論を改善できるか。
- RQ2オブジェクト認識に基づく異常埋め込みと Look-Twice Feature Matching は検知精度と推論の品質にどのような影響を与えるか。
- RQ3大規模な現場データ (WebAD) の影響はゼロショット異常検知性能にどのように現れるか。
- RQ4アプローチは3Dおよび医療の異常検知設定へ効果的に拡張できるか。
主な発見
- Anomaly-OV は画像レベルの異常検知(ZSAD)とテキストベースの異常推論において、先進的な一般モデルより有意な改善を達成する。
- 異常専門家は WebAD データの恩恵を受け、テキストエンコーダなしでも正常性/異常の意味論をより良く捉えられるようになる。
- Look-Twice Feature Matching と VT Selector によるトークン強調は、疎な異常の局在化と推論精度を向上させる。
- GPT-4o や他の公開モデルと比較して、Anomaly-OV はより正確で根拠のある異常記述と推論を提供する。
- 3D および医療ドメインへの拡張が示されており、広範な適用性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。