Skip to main content
QUICK REVIEW

[論文レビュー] Visual Attention Drifts,but Anchors Hold:Mitigating Hallucination in Multimodal Large Language Models via Cross-Layer Visual Anchors

Chengxu Yang, Jingling Yuan|arXiv (Cornell University)|Mar 26, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

CLVA はトレーニング不要の手法で、マルチモーダル LLMs における深層の注意 drift を中間層の視覚アンカと初期層のノイズアンカーを抽出することで対抗し、最小のオーバーヘッドで事実的な根拠を改善します。

ABSTRACT

Multimodal Large Language Models often suffer from object hallucination. While existing research utilizes attention enhancement and visual retracing, we find these works lack sufficient interpretability regarding attention drift in final model stages. In this paper, we investigate the layer wise evolution of visual features and discover that hallucination stems from deep layer attention regressing toward initial visual noise from early layers. We observe that output reliability depends on acquiring visual anchors at intermediate layers rather than final layers. Based on these insights, we propose CLVA, which stands for Cross-Layer Visual Anchors, a training free method that reinforces critical mid layer features while suppressing regressive noise. This approach effectively pulls deep layer attention back to correct visual regions by utilizing essential anchors captured from attention dynamics. We evaluate our method across diverse architectures and benchmarks, demonstrating outstanding performance without significant increase in computational time and GPU memory.

研究の動機と目的

  • マルチモーダル LLM における層を横断する視覚特徴の進化を調査し、幻覚の原因を特定する。
  • 中間層から深層への注意 drift の特徴づけと、初期層ノイズが事実的内容を劣化させる役割を明らかにする。
  • トレーニング不要の緩和策(CLVA)を開発し、中間層アンカーを強化し初期層ノイズを抑制する。
  • 異なるアーキテクチャ間での有効性と、幻覚ベンチマークにおける低オーバーヘッドを示す。

提案手法

  • 視覚 grounding 強度 Phi^(l)_h を用いて visually sensitive heads と visually insensitive heads を区別するためのクロスモーダル注意を分析する。
  • 中間層で視覚的に敏感な heads から正のアンカー、初期層で視覚的に非敏感な heads から負のアンカーを定義する。
  • Z-score ベースの外れ値検出によって視覚アンカーマスクを計算する:Z_pos, Z_neg。
  • tilde A(i,j)=A(i,j)*(1+αZ_pos(j)−βZ_neg(j)) で注意を再アンカーし、hat A(i,j) を得るように正規化する。
  • 視覚と言語事前の成分に分解される理論的ビュー O=AV を提供し、CLVA が高忠実な視覚証拠へバランスをシフトさせる様子を示す。

実験結果

リサーチクエスチョン

  • RQ1深層の注意 drift が MLLMs の事実性 grounding をなぜ低下させるのか?
  • RQ2トレーニング不要の横断層アンカー戦略はアーキテクチャを横断して幻覚を緩和し得るか?
  • RQ3CLVA は異なる LVLM バックボーンやベンチマークでどの程度有効か?
  • RQ4デコード時に CLVA を適用する際の計算・メモリオーバーヘッドはどの程度か?

主な発見

  • 深層の注意 drift は深層から初期層の視覚ノイズへと逆行し、事実性 grounding を損なう。
  • 中間層はタスク関連領域を正確に局在づける Positive Visual Anchors を有する。
  • CLVA は正のアンカーを強化し負のアンカーを抑制することで、深層の grounding を回復する。
  • CLVA は複数のモデルとアーキテクチャで幻覚ベンチマークを改善し、オーバーヘッドを最小限に抑える。
  • アブレーションにより POS および NEG アンカーの両方が効果に不可欠であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。