[論文レビュー] MIRAGE: The Illusion of Visual Understanding
論文は、マルチモーダルAIにおける幻影効果を明らかにし、モデルが存在しない画像を高い自信で説明する傾向、医療データの病理に対する偏りを示し、視覚-grounded評価の公正性のためのB-Cleanを提案します。
Multimodal AI systems have achieved remarkable performance across a broad range of real-world tasks, yet the mechanisms underlying visual-language reasoning remain surprisingly poorly understood. We report three findings that challenge prevailing assumptions about how these systems process and integrate visual information. First, Frontier models readily generate detailed image descriptions and elaborate reasoning traces, including pathology-biased clinical findings, for images never provided; we term this phenomenon mirage reasoning. Second, without any image input, models also attain strikingly high scores across general and medical multimodal benchmarks, bringing into question their utility and design. In the most extreme case, our model achieved the top rank on a standard chest X-ray question-answering benchmark without access to any images. Third, when models were explicitly instructed to guess answers without image access, rather than being implicitly prompted to assume images were present, performance declined markedly. Explicit guessing appears to engage a more conservative response regime, in contrast to the mirage regime in which models behave as though images have been provided. These findings expose fundamental vulnerabilities in how visual-language models reason and are evaluated, pointing to an urgent need for private benchmarks that eliminate textual cues enabling non-visual inference, particularly in medical contexts where miscalibrated AI carries the greatest consequence. We introduce B-Clean as a principled solution for fair, vision-grounded evaluation of multimodal AI systems.
研究の動機と目的
- 先端的なマルチモーダルモデルが画像へアクセスせずに詳細な画像様の推論を生成できることを実証する(幻影効果)。
- 医療および一般ベンチマークにおいて、視覚入力なしでマルチモーダル質問に対してモデルがどれだけ頻繁に回答するかを定量化する。
- 明示的な推測(画像なしプロンプト)が幻影モードより性能を下げることを示し、異なる基盤メカニズムを示唆する。
- 現行ベンチマークのリスクを示し、視覚-grounded評価の原理的なフレームワーク(B-Clean)を提案する。
提案手法
- Phantom-0を用いて、画像を削除した視覚クエスチョンベンチマークとして幻影を定義・定量化する。
- 医療および一般ベンチマークで、フロンティアモデル(例:Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5、GPT-5.1)を幻影モードとオリジナルモードの両方で評価する。
- ReXVQA上でテキストのみの超推測モデルを訓練し、画像なしでの性能を検証してマルチモーダルモデル与え Radiologistsと比較する。
- 幻影モードと推測モードを比較して動作系を識別する。
- 公正な視覚-groundedベンチマーキングのために、 compromisingとなる質問を特定・除去するB-Cleanを導入する。

実験結果
リサーチクエスチョン
- RQ1フロンティアのマルチモーダルモデルは、視覚入力が欠如した場合に自信を持つ画像なしの語り(幻影)を生み出すか。
- RQ2幻影の発生率と偏り(特に病理偏り)は医療・一般ベンチマークでどの程度か。
- RQ3幻影モードの性能は、 held-outデータセットでの推測モードおよび人間専門家と比べてどうか。
- RQ4事後的フレームワーク(B-Clean)で、 compromisedな質問を除去して公正な視覚-groundedベンチマークを回復できるか。
主な発見
- 全てのテスト対象の先端モデルは高い幻影率を示し、カテゴリを問わず存在しない画像を自信を持って説明する。
- 幻影は医療文脈で病理に強く偏っており、診断や病院関連情報といったセンシティブなデータも含む。
- 幻影モードの正解率は、画像が有効な場合の正解率を上回ることがあり、平均的な幻影スコアはベンチマーク全体で60–99%の感受性を示す(医療ベンチマークの方が高い)。
- テキストのみの3Bパラメータの超推測モデルが、Chest Radiologyの_hold-outベンチマークで、画像を使用せずにフロンティアモデルや放射線科医を上回ることができる。
- 画像なしでモデルへ推測をExplicitに指示すると正確さが低下し、幻影モードと推測モードという二つの動作モードが存在する可能性を示唆する。
- B-Cleanは、 compromisedな質問を大幅に減らすことができ(いくつかのベンチマークで75%以上の除去など)、モデルのランキングにも影響を与え、評価のアーティファクトを浮き彫りにする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。