Skip to main content
QUICK REVIEW

[論文レビュー] LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

Yuzhang Shang, Mu Cai|arXiv (Cornell University)|Mar 22, 2024
Topic Modeling被引用数 5
ひとこと要約

この論文は、性能を維持しつつ視覚トークンを削減する適応的視覚トークン削減法であるPruMergeを提案し、平均約6.9%のトークンで類似の結果を達成可能である。

ABSTRACT

Large Multimodal Models (LMMs) have shown significant visual reasoning capabilities by connecting a visual encoder and a large language model. LMMs typically take in a fixed and large amount of visual tokens, such as the penultimate layer features in the CLIP visual encoder, as the prefix content. Recent LMMs incorporate more complex visual inputs, such as high-resolution images and videos, which further increases the number of visual tokens significantly. However, due to the inherent design of the Transformer architecture, the computational costs of these models tend to increase quadratically with the number of input tokens. To tackle this problem, we explore a token reduction mechanism that identifies significant spatial redundancy among visual tokens. In response, we propose PruMerge, a novel adaptive visual token reduction strategy that significantly reduces the number of visual tokens without compromising the performance of LMMs. Specifically, to metric the importance of each token, we exploit the sparsity observed in the visual encoder, characterized by the sparse distribution of attention scores between the class token and visual tokens. This sparsity enables us to dynamically select the most crucial visual tokens to retain. Subsequently, we cluster the selected (unpruned) tokens based on their key similarity and merge them with the unpruned tokens, effectively supplementing and enhancing their informational content. Empirically, when applied to LLaVA-1.5, our approach can compress the visual tokens by 14 times on average, and achieve comparable performance across diverse visual question-answering and reasoning tasks. Code and checkpoints are at https://llava-prumerge.github.io/.

研究の動機と目的

  • 大規模マルチモーダルモデル(LMMs)における長い視覚トークン列による高い計算コストに対処する。
  • 画像内容に基づいて情報量の多いトークンを選択する適応的トークン削減機構を開発する。
  • 視覚質問応答と推論タスクの性能を大幅に削りつつモデル性能を保持する。
  • 削除されたトークンの情報を補うトークン結合戦略を導入する。
  • extensive retraining せずにLLaVA-1.5へのプラグアンドプレイ適用性を示す。

提案手法

  • CLSトークンと空間トークンのアテンション分布を用いて重要な視覚トークンを識別するためにアウトライヤベースの選択(IQR)を用いる。
  • CLSトークンへのアテンションに基づいて n に比べてずっと小さいターゲット m << n に適応的にトークンを剪定する。
  • 選択されたトークンを k-nearest neighbors でクラスタリングし、重み付き平均でクラスタ中心を更新する(Token Supplement)。
  • 剪定されたトークンを K のドット積類似性を用いて類似クラスタへ統合し、保持トークンを豊富にする。
  • 減少したトークン regime によりLLMを更に微調整(LoRA)して適応性を高めることができる。
  • PruMerge+ バリアントを提供し、追加トークンの空間的一様サンプリングを追加して性能を安定化させる。

実験結果

リサーチクエスチョン

  • RQ1LMM で視覚トークンを削減しても、さまざまな VQA および推論ベンチマークで性能を維持できるか?
  • RQ2意味のあるモダリティ理解の悪化なしに、どれくらいトークン削減が可能か?
  • RQ3適応的トークン選択は、タスク間で固定または一様サンプリング戦略を上回るか?
  • RQ4剪定トークンのトークン結合は、過度の剪定による情報喪失を緩和できるか?

主な発見

手法LLM結果PTITVQA v2SQA IVQA TPOPEMMEMMB
BLIP-2Vicuna-13B224129M-41.06142.585.31293.8-
InstructBLIPVicuna-7B224129M1.2M-60.550.1--36
InstructBLIPVicuna-13B224129M1.2M-63.150.778.91212.8-
ShikraVicuna-13B224600K5.5M77.4----58.8
IDEFICS-9BLLaMA-7B224353M1M50.9-25.9--48.2
IDEFICS-80BLLaMA-65B224353M1M60.0-30.9--54.5
Qwen-VLQwen-7B4481.4B50M78.867.163.8--38.2
Qwen-VL-ChatQwen-7B4481.4B50M78.268.261.5-1487.560.6
LLaVA-1.5Vicuna-7B336558K665K78.566.858.285.91510.764.3
LLaVA-1.5 + PruMergeVicuna-7B336558K665K72.068.556.076.31350.360.9
LLaVA-1.5Vicuna-13B336558K665K80.071.661.385.91531.367.7
LLaVA-1.5 + PruMergeVicuna-13B336558K665K72.871.058.478.51428.262.3
LLaVA-1.5 + PruMerge +Vicuna-13B336558K665K77.871.058.684.41485.565.7
  • LLaVA-1.5 に適用した場合、PruMerge は視覚トークンを約5.5%(平均約32トークン)に削減しつつ、性能を同等に維持する。
  • 6つのベンチマークを通じて、LLaVA-PruMerge は元の LLaVA-1.5 と競合する結果を達成し、いくつかのベースライン(例:BLIP-2、InstructBLIP)を上回る。
  • PruMerge+ はトークンをさらに削減(約4x)でき、トークン選択の拡張と空間サンプリングのおかげで性能の低下をほぼ防ぐ。
  • 効率分析により FLOP/メモリ節約が顕著であり、ViT-7B/INT4 の場合、プレフィルと総コストが PruMerge 使用時に大幅に低下する。
  • 微調整によって結果がさらに改善され、ScienceQA、TextVQA、POPE、MME などのタスクで性能が向上する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。