[論文レビュー] Evaluating Object Hallucination in Large Vision-Language Models
この論文はLVLMにおけるオブジェクト幻視を体系的に検討し、POPEという投票ベースの評価アプローチを提案する。これは従来の方法よりも安定性とスケーラビリティが高く、LVLMが頻繁に一般的なオブジェクトや共起オブジェクトを幻視することを示している。
Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progress on LVLMs, we find that LVLMs suffer from the hallucination problem, i.e. they tend to generate objects that are inconsistent with the target images in the descriptions. To investigate it, this work presents the first systematic study on object hallucination of LVLMs. We conduct the evaluation experiments on several representative LVLMs, and show that they mostly suffer from severe object hallucination issue. We further discuss that the visual instructions may influence the hallucination, and find that: objects that frequently occur in the visual instructions or co-occur with the image objects, are obviously prone to be hallucinated by LVLMs. Besides, we find that existing evaluation methods might be affected by the input instructions and generation styles of LVLMs. Thus, we further design an improved evaluation method for object hallucination by proposing a polling-based query method called POPE. Experiment results demonstrate that our POPE can evaluate the object hallucination in a more stable and flexible way. Our codes and data are publicly available at https://github.com/RUCAIBox/POPE.
研究の動機と目的
- LVMLs(大規模ビジョン言語モデル)におけるオブジェクト幻視の研究動機づけ。
- MSCOCO上で代表的なLVLMに対する幻視の深刻さを定量的に評価。
- 視覚指示データが幻視行動に与える影響を分析。
- 安定な幻視評価のための投票ベース評価法(POPE)の提案・検証。
- POPEのデータセット間およびセグメンテーションベースの設定での拡張性と信頼性を実証。
提案手法
- CHAIR指標をLVLM生成キャプションのオブジェクト幻視を測る指標として再利用、MSCOCOで評価。
- 5つのLVLM(mPLUG-Owl、LLaVA、Multimodal-GPT、MiniGPT-4、InstructBLIP)に画像キャプション課題を提示。
- POPEを導入:幻視評価をオブジェクトの有無についてのYes/No尋問に変換する投票ベースの probing。
- Random、Popular、Adversarialサンプリングを用いた probing セットを構築し、オブジェクト幻視の頑健性を検証。
- POPEをCHAIRと比較し、異なるプロンプトやキャプション長さの下での安定性を評価。
- 任意でSEEMベースのセグメンテーションを用いて未注釈データセットへPOPEを拡張し、結果を比較。
実験結果
リサーチクエスチョン
- RQ1MSCOCO上で、既存のLVLMはground-truthオブジェクトと比較してキャプションにどれだけオブジェクトを幻視するのか?
- RQ2CHAIRを用いた場合、指示設計とキャプション長が幻視測定に与える影響は?
- RQ3POPEはLVLMのオブジェクト幻視を評価する際により安定的でスケーラブルな手法となり得るか?
- RQ4視覚指示データに頻繁に現れるオブジェクトや共起オブジェクトはLVLMの幻視を促進するか?
主な発見
| Dataset | Setting | Model | Accuracy | Precision | Recall | F1 Score | Yes (%) |
|---|---|---|---|---|---|---|---|
| MSCOCO | Random | mPLUG-Owl | 53.30 | 51.71 | 99.53 | 68.06 | 96.23 |
| MSCOCO | Random | LLaVA | 54.43 | 52.32 | 99.80 | 68.65 | 95.37 |
| MSCOCO | Random | MultiModal-GPT | 50.03 | 50.02 | 100.00 | 66.68 | 99.97 |
| MSCOCO | Random | MiniGPT-4 | 77.83 | 75.38 | 82.67 | 78.86 | 54.83 |
| MSCOCO | Popular | mPLUG-Owl | 50.63 | 50.32 | 99.27 | 66.79 | 98.63 |
| MSCOCO | Popular | LLaVA | 52.43 | 51.25 | 99.80 | 67.72 | 97.37 |
| MSCOCO | Popular | MultiModal-GPT | 50.00 | 50.00 | 100.00 | 66.67 | 100.00 |
| MSCOCO | Popular | MiniGPT-4 | 68.30 | 64.27 | 82.40 | 72.21 | 64.10 |
| MSCOCO | Popular | InstructBLIP | — | — | — | — | — |
| MSCOCO | Adversarial | mPLUG-Owl | 50.67 | 50.34 | 99.33 | 66.82 | 98.67 |
| MSCOCO | Adversarial | LLaVA | 50.77 | 50.39 | 99.87 | 66.98 | 99.10 |
| MSCOCO | Adversarial | MultiModal-GPT | 50.00 | 50.00 | 100.00 | 66.67 | 100.00 |
| MSCOCO | Adversarial | MiniGPT-4 | 66.60 | 62.45 | 83.27 | 71.37 | 66.67 |
| MSCOCO | Adversarial | InstructBLIP | 74.37 | 67.67 | 93.33 | 78.45 | 68.97 |
- LVLMは強いオブジェクト幻視を示し、しばしば小型VLPMよりも高い。CHAIRの結果はインスタンスレベルおよび文レベルの幻視を示す。
- 指示プロンプト設計とキャプション長はCHAIRスコアに大きく影響し、評価指標としてCHAIRの安定性が欠如していることを示唆。
- POPEはより安定的で柔軟な評価を提供:Yes/Noの probing は解析バイアスを低減し、キャプション内容と整合する。
- LVLMは視覚指示データに頻繁に現れるオブジェクトや ground-truth オブジェクトと頻繁に共起するオブジェクトを幻視する傾向がある。
- MSCOCOのRandom、Popular、Adversarial設定では、InstructBLIPが一般に最良の性能を示す一方、LLaVA、MultiModal-GPT、mPLUG-Owlは幻視傾向が強い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。