Skip to main content
QUICK REVIEW

[論文レビュー] Woodpecker: Hallucination Correction for Multimodal Large Language Models

Shukang Yin, Chaoyou Fu|arXiv (Cornell University)|Oct 24, 2023
Topic Modeling参考文献 44被引用数 22
ひとこと要約

Woodpecker は訓練不要のフレームワークで、MLLM の出力を後処理して画像-grounded の幻覚を修正する。解釈可能性のための境界ボックス証拠を用いた五段階パイプライン。

ABSTRACT

Hallucination is a big shadow hanging over the rapidly evolving Multimodal Large Language Models (MLLMs), referring to the phenomenon that the generated text is inconsistent with the image content. In order to mitigate hallucinations, existing studies mainly resort to an instruction-tuning manner that requires retraining the models with specific data. In this paper, we pave a different way, introducing a training-free method named Woodpecker. Like a woodpecker heals trees, it picks out and corrects hallucinations from the generated text. Concretely, Woodpecker consists of five stages: key concept extraction, question formulation, visual knowledge validation, visual claim generation, and hallucination correction. Implemented in a post-remedy manner, Woodpecker can easily serve different MLLMs, while being interpretable by accessing intermediate outputs of the five stages. We evaluate Woodpecker both quantitatively and qualitatively and show the huge potential of this new paradigm. On the POPE benchmark, our method obtains a 30.66%/24.33% improvement in accuracy over the baseline MiniGPT-4/mPLUG-Owl. The source code is released at https://github.com/BradyFU/Woodpecker.

研究の動機と目的

  • 訓練を再実施せずに、マルチモーダル大規模言語モデル(MLLM)における視覚幻覚を軽減する必要性を動機づける。
  • 訓練不要の、プラグイン型修正パイプラインを提案し、診断と幻覚の修正を行い、 grounding 証拠を提供する。
  • 途中の出力と境界ボックス証拠を公開して解釈可能性を示す。
  • 確立されたベンチマーク(POPE、MME、LLaVA-QA90)でフレームワークを評価し、ベースラインのMLLMと比較して利得を示す。

提案手法

  • 五段階の修正パイプライン: (1) 生成テキストに言及された主要オブジェクトを特定するためのキーワード概念抽出; (2) オブジェクトと属性を巡る質問の作成; (3) 視覚モデルを用いた QA プロンプトへの回答による視覚知識の検証; (4) オブジェクトレベルおよび属性レベルの主張を含む構造化された視覚知識ベースを構築する視覚主張生成; (5) 視覚知識ベースに導かれた応答を修正し、根拠として境界ボックスを添付する幻覚修正。
  • grounding-based components: open-set object detector (Grounding DINO) for object existence/count, and VQA model (BLIP-2-FlanT5 XXL) for attribute questions.
  • LLM-driven: GPT-3.5-turbo used for key concept extraction, question formulation, and final correction; prompts are designed for interpretability and to preserve bounding-box evidence.
  • Training-free design: relies on off-the-shelf models (no model retraining of the MLLM) to enable easy integration with different MLLMs.
  • Evidence augmentation: includes bounding boxes in corrected outputs to facilitate visual fact-checking.

実験結果

リサーチクエスチョン

  • RQ1訓練を再実施せずに、プラグイン型フレームワークは object-level および attribute-level の幻覚を MLLMs で削減できるか?
  • RQ2Woodpecker は POPE、MME、LLaVA-QA90 の異なる MLLMs やデータセットで、精度と詳細さの点でどの程度性能を発揮するか?
  • RQ3境界ボックスといった grounding 証拠は、修正結果の解釈可能性と検証性をどの程度向上させるか?

主な発見

  • POPE において、Woodpecker は baseline MiniGPT-4 と mPLUG-Owl の精度をそれぞれ 30.66% および 24.33% 向上させる。
  • POPE において、Woodpecker は MiniGPT-4 / mPLUG-Owl の精度をそれぞれ 54.67%/62% から 85.33%/86.33% に向上させる。
  • MME では、オブジェクトレベルの修正によって LLaVA へのスコア増加が大きく、MiniGPT-4 へは +101.66、LLaVA へは +65 の範囲。属性レベルの改善(例: 色)は修正後に大幅に改善。
  • LLaVA-QA90 では、GPT-4V を補助とした評価で、修正済み出力がより高い精度と詳細さを達成。例として、修正条件下での accuracy および detailedness の向上(例: LLaVA の accuracy が 7.1 から 7.8、detailedness が 7.1 から 8.6 へ)。
  • 本フレームワークの修正精度は、テストされた MME シナリオ全体で 79.2%、欠落率と誤修正率は比較的低い。
  • 境界ボックス証拠は回答の詳細さを高め、GPT-4V を用いた評価で詳細度の向上に寄与。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。