[論文レビュー] Hallucination of Multimodal Large Language Models: A Survey
この論文は、マルチモーダル大規模言語モデル(MLLMs)における幻覚を概説し、原因、ベンチマーク、指標、そして信頼性向上のための緩和戦略を詳述します。
This survey presents a comprehensive analysis of the phenomenon of hallucination in multimodal large language models (MLLMs), also known as Large Vision-Language Models (LVLMs), which have demonstrated significant advancements and remarkable abilities in multimodal tasks. Despite these promising developments, MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination, which poses substantial obstacles to their practical deployment and raises concerns regarding their reliability in real-world applications. This problem has attracted increasing attention, prompting efforts to detect and mitigate such inaccuracies. We review recent advances in identifying, evaluating, and mitigating these hallucinations, offering a detailed overview of the underlying causes, evaluation benchmarks, metrics, and strategies developed to address this issue. Additionally, we analyze the current challenges and limitations, formulating open questions that delineate potential pathways for future research. By drawing the granular classification and landscapes of hallucination causes, evaluation benchmarks, and mitigation methods, this survey aims to deepen the understanding of hallucinations in MLLMs and inspire further advancements in the field. Through our thorough and in-depth review, we contribute to the ongoing dialogue on enhancing the robustness and reliability of MLLMs, providing valuable insights and resources for researchers and practitioners alike. Resources are available at: https://github.com/showlab/Awesome-MLLM-Hallucination.
研究の動機と目的
- 視覚+LLMを組み合わせたMLLMsにおける幻覚を定義・文脈化し、それが信頼性に与える影響を明らかにする。
- データ・モデル・トレーニング・推論にまたがる幻覚原因の細分化した分類を提示する。
- クロスモーダル幻覚を評価する既存のベンチマークと指標を検討する。
- 特定された原因に対処し、 groundingを改善する緩和戦略を調査する。
- 堅牢なMLLMの実現に向けた未解決の課題と今後の研究方向を強調する。
提案手法
- 幻覚タイプをカテゴリ、属性、関係に分類する分類学的整理。
- データ関連、モデル関連、トレーニング関連、推論関連の原因の分析。
- 幻覚のベンチマークと指標の収集と議論(例:CHAIR、POPE)。
- 根本原因に対応した緩和手法の検討(データ編纂、モデル調整、トレーニング信号、推論介入)。
- 既存の調査との比較と今後の研究を導く未解決の疑問の提示。

実験結果
リサーチクエスチョン
- RQ1マルチモーダルLLM(データ、モデル、トレーニング、推論)における幻覚の主な源泉は何か、そしてそれらがクロスモーダルコンテンツにどのように現れるか。
- RQ2MLLMsにおける幻覚はどのように測定・ベンチマークされているか、そして各原因に対してどの緩和戦略が効果的であるか。
- RQ3データ品質、データ量、モデルのバランス、アラインメントインターフェースがクロスモーダルの不正確さにどう寄与するか。
- RQ4MLLMの幻覚の現在の評価および緩和手法におけるギャップと未解決の疑問は何か。
主な発見
- MLLMsにおけるオブジェクト幻覚は、カテゴリ、属性、関係タイプに分類される。
- 幻覚はデータ量・質・統計的バイアス、さらにはモデル先送りやアラインメントインターフェースから生じる。
- トレーニングおよび推論段階は、監視信号、損失設計、生成中のアテンションダイナミクスを通じて寄与する。
- 生成タスクと識別タスクの両方で、CHAIR、POPEなどのベンチマークと指標の範囲が幻覚を評価する。
- 緩和戦略は、データ選別、モデル調整、補助的な監督、デコード介入など、特定の根本原因に結び付けられている。
- 本調査は構造化された全体像を提供し、今後の研究を指針とする未解決の問いを特定する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。