[論文レビュー] LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
LLaMA-VIDは各動画フレームをコンテキスト・トークンとコンテンツ・トークンの2つのトークンで表現し、トークン量を大幅に削減しつつ情報を保つことで、長時間動画の理解を可能にし、LLMでの動画・画像ベンチマークで高い成果を達成します。
In this work, we present a novel method to tackle the token generation challenge in Vision Language Models (VLMs) for video and image understanding, called LLaMA-VID. Current VLMs, while proficient in tasks like image captioning and visual question answering, face computational burdens when processing long videos due to the excessive visual tokens. LLaMA-VID addresses this issue by representing each frame with two distinct tokens, namely context token and content token. The context token encodes the overall image context based on user input, whereas the content token encapsulates visual cues in each frame. This dual-token strategy significantly reduces the overload of long videos while preserving critical information. Generally, LLaMA-VID empowers existing frameworks to support hour-long videos and pushes their upper limit with an extra context token. It is proved to surpass previous methods on most of video- or image-based benchmarks. Code is available https://github.com/dvlab-research/LLaMA-VID}{https://github.com/dvlab-research/LLaMA-VID
研究の動機と目的
- 長尺動画に対する視覚言語モデルのトークンボトルネックを各フレームのトークン数を削減して緩和する。
- フレームごとに文脈トークン(context token)と内容トークン(content token)を導入する。
- 既存のLLMバックボーンを用いて過大な計算コストをかけずに1時間級の動画処理を可能にする。
- モダリティ整列、命令チューニング、長尺動画チューニングを含む多段階の指示学習パイプラインを構築する。
提案手法
- フレームごとに2トークン設計を採用:ユーザー指示に導かれたコンテキスト・トークンとフレーム詳細を捉えるコンテンツ・トークン。
- ビジョン・トランスフォーマーのエンコーダでフレーム特徴を抽出し、テキストデコーダで文脈アテンションのためのテキスト誘導クエリを生成。
- E_tをテキストクエリとビジュアル特徴間のクロスモーダル・アテンションを介して文脈埋め込みとして生成し、単一のコンテキスト・トークンに射影。
- E^V_tとして視覚埋め込みの適応プーリングを用い、計算予算に合わせた可変長のコンテンツ・トークンを生成。
- フレームごとにコンテキストとコンテンツを結合し、下流のデコーディング用にLLMトークン空間へ射影。
- 三段階の訓練を実施:モダリティ整列(ほとんどのモジュールを凍結)、指令チューニング(テキストデコーダーを解凍)、長尺動画チューニング(長いシーケンスに拡張)、指令データを用いて。
実験結果
リサーチクエスチョン
- RQ11フレームあたりデュアル-token表現は、長尺動画のトークン数を劇的に削減しても性能を維持できるか?
- RQ2指示に基づく文脈はLLMのフレームレベル表現の品質にどのように影響するか?
- RQ3トークン予算とデコーダ選択が、動画・画像ベンチマークでの性能にどのような影響を与えるか?
- RQ4バックボーンLLMを拡張した場合、LLaMA-VIDによる1時間級動画理解はどの程度実現可能か?
主な発見
| Method | LLM | Res. | MSVD-QA Acc | MSVD-QA Score | MSRVTT-QA Acc | MSRVTT-QA Score | ActivityNet-QA Acc | ActivityNet-QA Score |
|---|---|---|---|---|---|---|---|---|
| LLaMA-VID | Vicuna-7B | 224 | 69.7 | 3.7 | 57.7 | 3.2 | 47.4 | 3.3 |
| LLaMA-VID | Vicuna-13B | 224 | 70.0 | 3.7 | 58.9 | 3.3 | 47.5 | 3.3 |
- LLaMA-VIDは動画QAベンチマークで強力なゼロショット性能を達成し、MSVD-QA、MSRVTT-QA、ActivityNet-QAで従来手法を上回る2トークン-per-frameでの成果を示す。
- 動画ベースの生成ベンチマークで、LLMスケールに応じて最良の性能を発揮する。
- 画像ベースのベンチマークでは、様々なLLMバックボーンで主要データセットの大半で他法を上回る。
- デュアル・トークン設計(文脈 + 内容)は単一の内容トークンより大幅な改善を生み、より強いテキストデコーダ(QFormer)によってさらなる改善が得られる。
- 適切な訓練データとトークン予算化を用いると、LLaMA-VIDは長尺動画(最大64Kトークンの文脈)をサポートでき、8x A100 GPUでの訓練は2日以内に完了可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。