[論文レビュー] Multimodal Fact-Level Attribution for Verifiable Reasoning
要約: 本論文は、検証可能で出典付き回答を生成する multimodal reasoning ベンチマーク MURGAT を導入し、時刻・モダリティ固有の引用を要求する。出典品質と主張 grounding を評価する自動スコアリングパイプライン(MURGAT-SCORE)を提示する。
Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.
研究の動機と目的
- 異種入力に基づく信頼できる、検証可能なマルチモーダル推論を促進する。
- 正確なモダリティと時刻引用でファクトレベルの出典を評価する MURGAT を提案する。
- 検証可能な主張識別、要素的事実分解、 attributed の品質へ評価を分解する。
- 人間の判断と強く相関する自動的で拴結可能な指標(MURGAT-SCORE)を開発する。
提案手法
- MLLM が明示的な推論と特定モダリティ・時刻に紐づく引用を伴って質問に答える MURGAT を定義する。
- 三つのサブタスクから成る評価:検証可能な主張識別、要素的事実分解、及び attribution の品質。
- 要素的事実を文脈から切り離し、引用集合と組み合わせて各要素的事実を含意するかを測定する。
- 引用の再現性と F1 を用いて attribution の品質を評価し、カバレージと合わせて MURGAT-SCORE を算出する。
- 自動評価(MURGAT-SCORE)を構築し、WorldSense および Video-MMMU データセットで人間の注釈と照合して妥当性を検証する。
実験結果
リサーチクエスチョン
- RQ1MLLM は複数のモダリティと時間セグメントに跨る検証可能で引用付きの回答を生成できるか。
- RQ2現在のモデルはマルチモーダル推論タスクにおける根拠の grounding と引用が人間の判断とどれほど一致するか。
- RQ3推論の深さ、 grounding の正確性、引用の信頼性のトレードオフはマルチモーダルタスクでどう現れるか。
主な発見
| Model | Method | WorldSense Coverage | WorldSense Attribution | WorldSense MURGAT-S | WorldSense Acc | Video-MMMU Coverage | Video-MMMU Attribution | Video-MMMMU MURGAT-S | Video-MMMU Acc |
|---|---|---|---|---|---|---|---|---|---|
| Gemini-2.5-Flash | + CITATION | 81.2 | 65.4 | 54.1 | 66.5 | 63.0 | 63.4 | 41.5 | 84.9 |
| Gemini-2.5-Flash | + POST-HOC ATTRIBUTION | 97.4 | 62.3 | 60.8 | 62.3 | 73.8 | 44.9 | 38.0 | 84.2 |
| Gemini-3-Flash | + CITATION | 95.9 | 66.5 | 64.4 | 66.2 | 88.2 | 64.5 | 56.9 | 86.0 |
| Gemini-3-Flash | + POST-HOC ATTRIBUTION | 95.1 | 71.4 | 69.2 | 67.0 | 87.9 | 47.2 | 44.1 | 86.8 |
| Gemini-3-Pro | + CITATION | 78.3 | 64.9 | 51.7 | 70.0 | 63.4 | 67.3 | 41.8 | 86.0 |
| Gemini-3-Pro | + POST-HOC ATTRIBUTION | 97.0 | 67.1 | 65.2 | 71.4 | 68.0 | 43.7 | 36.9 | 85.3 |
| Qwen3-Omni-Instruct | + CITATION | 47.6 | 53.3 | 29.0 | 54.0 | 34.6 | 21.8 | 9.8 | 40.0 |
| Qwen3-Omni-Instruct | + POST-HOC ATTRIBUTION | 99.5 | 45.7 | 45.4 | 57.0 | 95.1 | 17.9 | 17.6 | 45.0 |
| Qwen3-Omni-Thinking | + CITATION | 52.7 | 56.3 | 31.3 | 61.0 | 36.3 | 7.6 | 4.8 | 51.0 |
| Qwen3-Omni-Thinking | + POST-HOC ATTRIBUTION | 93.2 | 60.0 | 56.3 | 56.5 | 76.3 | 16.8 | 12.8 | 53.0 |
| Qwen3-VL-Instruct | + CITATION | 39.0 | 52.0 | 25.5 | 48.0 | 30.2 | 40.1 | 17.5 | 55.0 |
| Qwen3-VL-Instruct | + POST-HOC ATTRIBUTION | 98.9 | 70.2 | 69.4 | 69.4 | 93.4 | 44.6 | 42.3 | 53.0 |
| Qwen3-VL-Thinking | + CITATION | 38.5 | 56.1 | 30.8 | 49.0 | 23.2 | 15.1 | 7.6 | 60.0 |
| Qwen3-VL-Thinking | + POST-HOC ATTRIBUTION | 76.6 | 58.9 | 48.2 | 47.0 | 54.3 | 31.5 | 18.9 | 51.0 |
| Molmo2 | + CITATION | 69.1 | 50.2 | 39.7 | 40.0 | 82.6 | 21.4 | 19.3 | 44.3 |
| Molmo2 | + POST-HOC ATTRIBUTION | 75.0 | 38.3 | 33.2 | 41.0 | 66.4 | 15.0 | 11.4 | 50.5 |
- 強力な MLLMs はしばしば正しく回答するが、引用の虚偽や属性付与が不十分である。
- MURGAT-SCORE は人間の判断と高い相関を示し(エンドツーエンド相関の平均 0.84)、LLMを審査するベースラインより優れる。
- 推論の深さを上げることや構造化 grounding を強制すると、複雑なタスクで正確さが低下するトレードオフがある。
- プログラム的 grounding と思考のスケーリングは attribution を改善する一方、推論と検証可能な証拠が乖離する可能性がある。
- より大きなモデルは計算量が増えるほど grounding を改善するが、より小さなモデルは努力の増加とともに MURGAT-SCORE が低下し、潜在的な推論が証拠から切り離される可能性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。