[論文レビュー] VIGIL: Tackling Hallucination Detection in Image Recontextualization
VIGILは幻覚を細粒度の分類体系と多段階検知パイプラインで捉え、1,269サンプルの手動注釈付きベンチマークを提供する。カテゴリ特異的F1指標でベースラインを上回り、解釈可能な出力を提供する。
We introduce VIGIL (Visual Inconsistency & Generative In-context Lucidity), the first benchmark dataset and framework providing a fine-grained categorization of hallucinations in the multimodal image recontextualization task for large multimodal models (LMMs). While existing research often treats hallucinations as a uniform issue, our work addresses a significant gap in multimodal evaluation by decomposing these errors into five categories: pasted object hallucinations, background hallucinations, object omission, positional & logical inconsistencies, and physical law violations. To address these complexities, we propose a multi-stage detection pipeline. Our architecture processes recontextualized images through a series of specialized steps targeting object-level fidelity, background consistency, and omission detection, leveraging a coordinated ensemble of open-source models, whose effectiveness is demonstrated through extensive experimental evaluations. Our approach enables a deeper understanding of where the models fail with an explanation; thus, we fill a gap in the field, as no prior methods offer such categorization and decomposition for this task. To promote transparency and further exploration, we openly release VIGIL, along with the detection pipeline and benchmark code, through our GitHub repository: https://github.com/mlubneuskaya/vigil and Data repository: https://huggingface.co/datasets/joannaww/VIGIL.
研究の動機と目的
- 多モーダル画像再文脈化における細粒度幻覚評価の必要性を動機づける。
- 具体的なエラーモードの診断を可能にする手動注釈付きベンチマークを作成する。
- オブジェクトレベルと背景レベルの説明を提供する多段階検知パイプラインを開発する。
- データセット、パイプライン、コードのオープンソース公開を通じて透明性を促進する。
提案手法
- 再文脈化タスクの幻覚を5カテゴリで分類する分類体系を定義する。
- 背景画像、オブジェクト参照、生成出力、手動注釈を含む1,269サンプルのデータセットを作成する。
- 3段階のパイプラインを提案する:LLM+SAM 3分割によるオブジェクト抽出、DINO v3埋め込みと二分割マッチングによるオブジェクト忠実度検証、VLM推論による背景忠実度検証。
- コサイン類似度、マッチング、VLM/LLMベースの判断を組み合わせて、変異、欠落、背景の不整合を検出する。
- マクロF1とLLMを judgeとするセマンティック指標を用いて、ベースラインVision-Language Modelsと比較評価する。

実験結果
リサーチクエスチョン
- RQ1画像再文脈化幻覚の異なる失敗モード(分類体系)は何か。
- RQ2多段階パイプラインはエンドツーエンドのVLMベースラインより幻覚をより正確に検出・記述できるか。
- RQ3オブジェクトレベル忠実度と背景忠実度は全体の検出性能にどう寄与するか。
- RQ4異なるプロンプトと閾値はカテゴリ間の検出精度にどう影響するか。
- RQ5VIGILとGemini 2.5 Flash、Qwen3-VL-8B-Instruct、Gemma 3 27B ITの比較性能はどうか。
主な発見
| Method | Clothing | Furniture | Cosmetics | Electronics | Cars |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 0.3649 | 0.3058 | 0.1441 | 0.2404 | 0.3962 |
| Qwen3-VL-8B-Instruct | 0.2852 | 0.3357 | 0.1486 | 0.2047 | 0.2421 |
| Gemma 3 27B IT | 0.2534 | 0.3487 | 0.1745 | 0.2227 | 0.3611 |
| VIGIL (ours) | 0.5029 | 0.3841 | 0.2275 | 0.1636 | 0.3306 |
- 提案されたVIGILパイプラインは、マルチラベル検出においてベースラインよりカテゴリごとのMacro F1スコアが高い。
- 衣料・化粧品領域で、VIGILはベースラインより顕著な改善を示し、分類体系ベースの出力を通じて解釈性が高い。
- LLM-as-a-Judge評価では、VIGILはグラウンドトゥルースとより良い欠陥レベルの意味的整合を示す。
- VIGILは大半のカテゴリで、独立したQwen-3-VL-8B-InstructおよびGemma-3-27B-ITベースラインよりLLM-as-a-Judge設定で優れている。
- 分解されたタスク特化モジュールは、モノリシックなVLM検出器より高い性能を示す。
- データセットは、幻覚を含む1,024画像(80.7%)とクリーンなサンプル245件(19.3%)を含み、5つの領域(衣料、家具、化粧品、電子機器、車)にまたがる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。