[論文レビュー] VTFusion: A Vision-Text Multimodal Fusion Network for Few-Shot Anomaly Detection
VTFusion は、 Few-shot 異常検知のための domain ギャップと意味的ミスマッチに対処するために適応的な画像/テキスト特徴抽出機と専用のマルチモーダル融合モジュールを導入し、産業データセットで画像レベルの AUROC および AUPRO スコアを高く達成します。
Few-Shot Anomaly Detection (FSAD) has emerged as a critical paradigm for identifying irregularities using scarce normal references. While recent methods have integrated textual semantics to complement visual data, they predominantly rely on features pre-trained on natural scenes, thereby neglecting the granular, domain-specific semantics essential for industrial inspection. Furthermore, prevalent fusion strategies often resort to superficial concatenation, failing to address the inherent semantic misalignment between visual and textual modalities, which compromises robustness against cross-modal interference. To bridge these gaps, this study proposes VTFusion, a vision-text multimodal fusion framework tailored for FSAD. The framework rests on two core designs. First, adaptive feature extractors for both image and text modalities are introduced to learn task-specific representations, bridging the domain gap between pre-trained models and industrial data; this is further augmented by generating diverse synthetic anomalies to enhance feature discriminability. Second, a dedicated multimodal prediction fusion module is developed, comprising a fusion block that facilitates rich cross-modal information exchange and a segmentation network that generates refined pixel-level anomaly maps under multimodal guidance. VTFusion significantly advances FSAD performance, achieving image-level AUROCs of 96.8% and 86.2% in the 2-shot scenario on the MVTec AD and VisA datasets, respectively. Furthermore, VTFusion achieves an AUPRO of 93.5% on a real-world dataset of industrial automotive plastic parts introduced in this paper, further demonstrating its practical applicability in demanding industrial scenarios.
研究の動機と目的
- 標準的な自然風景 Features を超えたドメイン特有のセマンティクスを伴う産業環境における Few-shot 異常検知(FSAD)の動機づけ。
- 事前学習済みモデルと産業データ間のドメインギャップを埋める適応的でタスク特異的な視覚・テキスト特徴抽出器の提案。
- マルチモーダル融合モジュールを開発し、 robust なクロスモーダル情報交換とマルチモーダル指向のピクセルレベル異常マップの精錬を実現。
- 特徴表現を改善するための合成異常生成による識別性の向上。
- 厳密な精度要件を持つ産業データセットで VTFusion の有効性を実証。
提案手法
- 産業データとのドメインギャップを埋めるタスク特異的 representations を学習する適応的な画像およびテキスト特徴抽出器。
- 特徴識別性を高める多様な合成異常の生成。
- クロスモ-modal 情報交換のための融合ブロックを備えたマルチモーダル予測融合モジュール。
- マルチモーダル指向の精錬を伴うピクセルレベル異常マップを生成するセグメンテーションネットワーク。
実験結果
リサーチクエスチョン
- RQ1FSAD において、適応的なビジョンおよびテキスト特徴抽出器は事前学習モデルと産業検査データとのドメインギャップをどのように埋めるか。
- RQ2専用のマルチモーダル融合モジュールは vision-text FSAD におけるクロスモーダルずれへのロバスト性を向上させるか。
- RQ3合成異常生成は特徴識別性と異常局在化の下流タスクを改善するか。
- RQ4マルチモーダル指向とセグメンテーションは産業データセット上のピクセルレベル異常マップにどのような改善をもたらすか。
主な発見
- 2-shot 設定で画像レベルの AUROC が 96.8%(MVTec AD)、86.2%(VisA)を達成。
- マルチモーダル情報に導かれたピクセルレベルのセグメンテーションマップを通じた強力な異常局在化性能を実証。
- 適応的特徴抽出器と堅牢なマルチモーダル融合/予測フレームワークを統合することでベースラインを上回る。
- 実世界の産業用自動車部品データセットで 93.5% の競争力のある AUPRO を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。