Skip to main content
QUICK REVIEW

[論文レビュー] Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Bin Lin, Ye Yang|arXiv (Cornell University)|Nov 16, 2023
Multimodal Machine Learning Applications被引用数 20
ひとこと要約

Video-LLaVAは、画像と動画の表現を共有の視覚特徴空間に統合してから投影を行い、単一のLVLMが両方のモダリティを理解できるようにし、画像中心・動画中心のベースラインをいくつか上回る。

ABSTRACT

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos. We aim for this work to provide modest insights into the multi-modal inputs for the LLM. Code address: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}

研究の動機と目的

  • 統一された視覚表現で画像と動画の両方を扱える単一のLVLMを実現するための動機。
  • LanguageBind エンコーダを用いた alignment-before-projection を提案し、モダリティを言語特徴空間へ前対 Alignmentする。
  • 統一された枠組みでマルチモーダル推論を強化するための画像と動画の共同訓練を有効にする。
  • 統一された視覚表現が幅広い画像・動画ベンチマークで性能を向上させることを実証する。

提案手法

  • LanguageBind エンコーダを用いて画像と動画を共有の言語特徴空間(統一視覚表現)へマッピングする。
  • 初期化は事前整列済みモデル(画像は OpenCLIP、動画は VIDAL-10M)から行い、出現的な整列を実現する。
  • 統一視覚表現をLLM入力へマッピングする共有投影層を適用する。
  • 画像と動画データで二段階の共同訓練を行う:ビジョン理解と指示調整。
  • Vicuna-7BをLLMバックボーンとして用い、2層の投影ヘッドと224x224の画像入力(8フレーム動画サンプリング)。
  • 自己回帰目的を採用して p(X_A | X_V, X_T) を最大化し、複数ラウンドの対話で指示調整を実施する。

実験結果

リサーチクエスチョン

  • RQ1画像と動画を投影前に統一視覚空間へ整列させることは、LLMs のマルチモーダル相互作用の学習を改善するか?
  • RQ2画像と動画の共同訓練は、統一表現の下で両モダリティに相互利益をもたらすか?
  • RQ3モダリティ特化モデルおよび他の LVLM と比較して、Video-LLaVA はさまざまな画像・動画ベンチマークでどの程度の性能を示すか?

主な発見

  • Video-LLaVA は 9 の画像ベンチマークと 4 の動画QAデータセットで堅実な結果を達成し、しばしばスペシャリストモデルを上回る。
  • MSRVTT、MSVD、TGIF、ActivityNet でそれぞれ 5.8%、9.9%、18.6%、10.1% で Video-ChatGPT を上回る。
  • alignment-before-projection による統一視覚表現は、画像・動画タスクの両方で分離表現よりも大きな利得をもたらす。
  • 画像と動画の共同訓練は両モダリティに相互の改善をもたらし、画像推論(例:VisWiz、LLaVA-Bench)と動画QA(MSVD、MSRVTT、TGIF、ActivityNet)を向上させる。
  • Video-LLaVA はベンチマークツールキット(例:MMBench、LLaVA-Bench、MM-Vet)でより大きな LVLMs に対して競争力を維持するか、上回る。
  • アブレーション研究は、alignment-before-projectionと共同訓練が性能向上の主要因であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。