Skip to main content
QUICK REVIEW

[論文レビュー] FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering

Chaodong Tong, Qi Zhang|arXiv (Cornell University)|Jan 1, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

FaithSCAN は、視覚—言語モデルの内部不確実性信号を利用して外部検証者や繰り返しサンプリングなしに VQA の忠実性ハルカシネーションを検出する軽量な単一パス検出器です。

ABSTRACT

Faithfulness hallucinations in VQA occur when vision-language models produce fluent yet visually ungrounded answers, severely undermining their reliability in safety-critical applications. Existing detection methods mainly fall into two categories: external verification approaches relying on auxiliary models or knowledge bases, and uncertainty-driven approaches using repeated sampling or uncertainty estimates. The former suffer from high computational overhead and are limited by external resource quality, while the latter capture only limited facets of model uncertainty and fail to sufficiently explore the rich internal signals associated with the diverse failure modes. Both paradigms thus have inherent limitations in efficiency, robustness, and detection performance. To address these challenges, we propose FaithSCAN: a lightweight network that detects hallucinations by exploiting rich internal signals of VLMs, including token-level decoding uncertainty, intermediate visual representations, and cross-modal alignment features. These signals are fused via branch-wise evidence encoding and uncertainty-aware attention. We also extend the LLM-as-a-Judge paradigm to VQA hallucination and propose a low-cost strategy to automatically generate model-dependent supervision signals, enabling supervised training without costly human labels while maintaining high detection accuracy. Experiments on multiple VQA benchmarks show that FaithSCAN significantly outperforms existing methods in both effectiveness and efficiency. In-depth analysis shows hallucinations arise from systematic internal state variations in visual perception, cross-modal reasoning, and language decoding. Different internal signals provide complementary diagnostic cues, and hallucination patterns vary across VLM architectures, offering new insights into the underlying causes of multimodal hallucinations.

研究の動機と目的

  • VQA における忠実性ハルカシネーションの堅牢な検出を動機づけ、信頼性とユーザーの信頼を向上させる。
  • 外部検証や繰り返しサンプリングを用いず、VLM の単一フォワードパスから得られる内部信号を活用する軽量検出器を開発する。
  • トークンレベルのデコーディング不確実性、中間視覚表現、クロスモーダル整合特徴をモデル化・統合してハルカネーションを診断する。
  • Heavy な手動ラベリングを伴わず、Visual-NLI によるモデル認識に基づく監督戦略を提案してハルカネーションラベルをターゲットモデルの推論と整合させる。
  • FaithSCAN を多様な VQA ベンチマークとアーキテクチャ上で評価し、効果と一般化を分析する。

提案手法

  • 凍結済みの VLM の単一フォワードパス中に三つの補完的な内部不確実性信号を抽出する:トークンレベルのデコーディング不確実性、中間視覚表現、クロスモーダル整合表現。
  • 各信号を専用のブランチエンコーダーで処理し、固定サイズの埋め込みを生成後、ブランチ間注意とゲート付き残差で融合してハルカシネーションスコアを出力する。
  • VLM に基づくモデル駆動の Visual-NLI ラベルを用いた二項分類の監督で FaithSCAN をエンドツーエンドで訓練する。これらラベルは画像と質問を条件としてモデル生成の回答を参照回答と比較する。
  • 手動アノテーションなしにモデル駆動の Visual-NLI 規範を拡張してマルチモーダル VQA に適用し、モデル認識に基づくハルカシネーションラベルを生成する。
  • FaithSCAN の頑健性と一般化を、異なる VLM バックボーン(例:InstructBLIP、LLaVA、Qwen3-VL)および複数の VQA データセットで、さまざまなハルカシネーションタイプを用いて検証する。

実験結果

リサーチクエスチョン

  • RQ1FaithSCAN は単一の VLM フォワードパスからの内部信号のみで忠実性ハルカネーションを検出できるか。
  • RQ2トークンレベル、視覚、クロスモーダル表現は、不確実性注意機構と組み合わせることでハルカネーション検出にどのように寄与するか。
  • RQ3モデル駆動の Visual-NLI 監督は大規模な人手アノテーションなしに信頼できるラベルを提供できるか。
  • RQ4FaithSCAN の信号とアーキテクチャは、異なる VLM バックボーンと VQA データセットで一般化可能か。

主な発見

  • FaithSCAN は外部コンポーネントや繰り返しサンプリングなしに単一フォワードパスで忠実性ハルカネーションを効果的に検出する。
  • トークンレベル、視覚、クロスモーダル信号は、不確実性を考慮した注意と組み合わせることで検出性能を補完的に向上させる。
  • Visual-NLI によるモデル駆動の監督は heavy な manual アノテーションなしにターゲットモデルの推論と整合する信頼性の高いラベルを生み出す。
  • 異なる VLM アーキテクチャは内部信号パターンに差を示し、モデル間の robust な検出設計に情報を与える。
  • 本手法は報告ベンチマークにおいて、不確実性ベースおよび外部検証ベースのベースラインと比較して高い有効性と効率向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。