Skip to main content
QUICK REVIEW

[論文レビュー] HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Ahmed Akl, Abdelwahed Khamis|arXiv (Cornell University)|Feb 21, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

要約: 本論文は Hallucination Insensitivity Model Editing (HIME) を提案する。これはトレーニング不要で層適応的な重み編集法であり、Hallucination Insensitivity Score (HIS) によって導かれ、LVLMs におけるオブジェクト幻視を抑制しつつ事前学習知識を保持する。複数のバックボーンで幻視の大幅な低減を達成。

ABSTRACT

Large Vision-Language Models (LVLMs) have demonstrated impressive multimodal understanding capabilities, yet they remain prone to object hallucination, where models describe non-existent objects or attribute incorrect factual information, raising serious concerns for reliable real-world deployment. While fine-tuning is a commonly adopted mitigation strategy, its high computational cost and practical difficulty motivate the need for training-free alternatives, among which model editing has recently emerged as a promising direction. However, indiscriminate editing risks disrupting the rich implicit knowledge encoded in pre-trained LVLMs, leading to a fundamental question: how much intervention is necessary at each layer to suppress hallucinations while preserving pre-trained knowledge? To address this question, we present a systematic analysis of LVLM decoders built on three widely used large language model backbones-Qwen, LLaMA, and Vicuna-revealing clear layer-wise differences in susceptibility to object hallucination. Building on these insights, we introduce the Hallucination Insensitivity Score (HIS), a principled metric that quantifies each layer's sensitivity to hallucination and provides guidance for targeted intervention. Leveraging HIS, we propose Hallucination Insensitivity Model Editing (HIME), a simple yet effective layer-adaptive weight editing approach that selectively modifies latent features to suppress hallucinations while preserving pre-trained knowledge. Extensive experiments demonstrate that HIME reduces hallucinations by an average of 61.8% across open-ended generation benchmarks, including CHAIR, MME, and GPT-4V-aided evaluation, without introducing additional parameters, inference-time latency, or computational overhead.

研究の動機と目的

  • LVLM デコーダの層ごとの幻視感受性のばらつきを特定する(Qwen, LLaMA, Vicuna バックボーン)。
  • Hallucination Insensitivity Score(HIS)を導入して階層的な感度を定量化する。
  • Hallucination Insensitivity Model Editing(HIME)を開発して潜在方向を選択的に編集し幻視を抑制する。
  • HIME が追加パラメータやオーバーヘッドなしでオープンエンド生成ベンチマークで object 幻視を約61.8%低減することを示す。

提案手法

  • 真実サンプルと幻視サンプルの注意分布を KL ダイバージェンスで対比させることにより各デコーダ層で HIS を導出する。
  • 真実サンプルと幻視サンプルから層ごとの注意誘導表現を計算し、Z_l の差を導出して低ランクの幻視サブスペースを特定する。
  • トップ-k 幻視サブスペースに対して選択的に編集する重み付き零空間射影 N_l = I - HIS_c_l * V_l,k V_l,k^T を構築する。
  • 編集済みの重みを推論時に再ロードして追加のパラメータや推論時コストなしに LVLM デコーダへ適用する。
  • 編集操作は層適応的で HIS_c_l によって制御され、編集なしと全編集の間を滑らかに補間する。

実験結果

リサーチクエスチョン

  • RQ1LVLM のデコーダ層間でオブジェクト幻視の感受性はどのように変動するか?
  • RQ2層ごと指標(HIS)が訓練不要のターゲット編集を導くことができるか?知識を保持しつつ幻視を抑制できるか?
  • RQ3HIME は追加パラメータや遅延を増やすことなく、複数の LVLM バックボーンとベンチマークでオブジェクト幻視を低減するか?
  • RQ4HIME が下流の認識タスクやモデルの総合的な有用性に与える影響はどの程度か?

主な発見

LVLMsCHAIR_SCHAIR_IBLEU
LLaVA-1.5 Original181.67±2.36118.33±12.47104.44±5.67
LLaVA-1.5 Nullu190.00±4.08121.11±7.74105.56±4.20
LLaVA-1.5 HIME195.00±0.00155.56±4.81123.33±0.00
QWen2-VL-8B-Instruct Original20.85.3611.16
QWen2-VL-8B-Instruct HIME6.003.448.89
  • HIME はオープンエンド生成ベンチマーク(CHAIR, MME, GPT-4V-補助評価)全体で平均61.8%のオブジェクト幻視を低減。
  • パラメータ追加、推論時遅延、計算オーバーヘッドなしでこれを達成。
  • HIS は層ごとの感度指標を提供し、ターゲット編集を導き、編集なしと全編集の間を滑らかに補間可能。
  • 編集は層ごとにトップ-k 幻視サブスペースへ対する加重零空間射影を用いてオフラインで実行され、事前学習知識を保持。
  • LLaVA-1.5, MiniGPT-4, mPLUG-Owl2, Qwen バックボーンを横断する実験で、幻視指標と認識タスクの指標が一貫して改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。