QUICK REVIEW

[論文レビュー] Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Yang Jin, Zhicheng Sun|arXiv (Cornell University)|Feb 5, 2024

Multimodal Machine Learning Applications被引用数 5

ひとこと要約

Video-LaVIT は動画をキーフレームとモーションベクトルに分解し、それらを離散トークンにトークン化し、理解と生成の両方のタスクのために video、image、text の事前学習を LLM で統一する。

ABSTRACT

In light of recent advances in multimodal Large Language Models (LLMs), there is increasing attention to scaling them from image-text data to more informative real-world videos. Compared to static images, video poses unique challenges for effective large-scale pre-training due to the modeling of its spatiotemporal dynamics. In this paper, we address such limitations in video-language pre-training with an efficient video decomposition that represents each video as keyframes and temporal motions. These are then adapted to an LLM using well-designed tokenizers that discretize visual and temporal information as a few tokens, thus enabling unified generative pre-training of videos, images, and text. At inference, the generated tokens from the LLM are carefully recovered to the original continuous pixel space to create various video content. Our proposed framework is both capable of comprehending and generating image and video content, as demonstrated by its competitive performance across 13 multimodal benchmarks in image and video understanding and generation. Our code and models are available at https://video-lavit.github.io.

研究の動機と目的

静止画像を超えた動画データからの視覚言語モデルのスケーラブルで統一的な事前学習を動機づける。
視覚意味論（キーフレーム）と時間動力学（モーションベクトル）を分離する、効率的な動画表現を提案する。
離散的な視覚トークンとモーショントークン化を活用し、動画・画像・テキストの複数モダリティに対して自回帰型事前学習を可能にする LLM を活用する。
大規模な微調整を必要とせず、モデルがマルチモーダルコンテンツを理解・生成できることを示す。

提案手法

キーフレーム用の画像トークナイザと、モーションベクトルを離散化する VQ-VAE に基づくモーション特化トークナイザを組み合わせた動画トークナイザを導入する。
動画を視覚トークンとモーショントークンの交互表現として、フレーム間の冗長性を低減する。
離散トークンを連続的な動画フレームへ戻す動画デトークナイザ（3D U-Net の変種）を開発し、モーション条件付けを強化する。
モダリティを横断する統一的な自回帰目的で訓練し、単一のフレームワークで共同理解と生成を可能にする。
3 段階の訓練パイプラインを採用する：動画データ上でのトークナイザ/デトークナイザ訓練、統一的生成事前訓練、指示調整。

実験結果

リサーチクエスチョン

RQ1分解された視覚-モーション・トークン化方式は、大規模言語モデルの事前訓練のための動画ダイナミクスを効率的に捉えることができるか。
RQ2統一的な生成目的は、重いタスク特化の微調整なしで、動画/画像の理解と生成の両方をどの程度可能にできるか。
RQ3モーション・トークン化は、フレームベースや3D トークン手法と比べて、動画理解とテキストから動画生成の性能にどのような影響を与えるか。
RQ4デコード時の明示的なノイズ制約によって、長い動画をより一貫した時間的整合性を持って生成できるか。

主な発見

Video-LaVIT は画像理解ベンチマークで最先端と競合する性能を達成し、画像と言語の事前学習からマルチモーダルタスクへの強い一般化を示している。
ゼロショットの動画質問応答では、Video-LaVIT が MSVD-QA、MSRVTT-QA、ActivityNet-QA のいずれでも最先端の精度を達成。
ゼロショットのテキストから動画生成では、多くのベースラインを上回り、より大規模な独自データで訓練されたモデルと競合する。
アブレーション研究により、モーション・トークン化が理解と生成を著しく改善し、モーション・トークン数を減らすと長動画の条件付けと効率が向上することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。