[論文レビュー] VideoPoet: A Large Language Model for Zero-Shot Video Generation
VideoPoet は、テキスト、画像、動画、音声に条件付けされた、音声付きのゼロショット動画生成が可能なデコーダー専用の大規模言語モデルを統一トークン化とマルチモーダル事前学習、さらに超解像モジュールを通じて実現します。
We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
研究の動機と目的
- テキスト、画像、動画、音声入力を扱える汎用的な動画生成の基盤モデルを構築する動機づけ。
- エンドツーエンドの動画生成のために、複数のモダリティを共有語彙へトークン化するデコーダー専用LLMフレームワークを開発する。
- テキストから動画、画像から動画、動画編集、スタイリゼーションなどのタスクを横断したゼロショット動画生成をエンドツーエンドで可能にする。
- 高品質なモーションを達成し長距離生成をサポートする二段階の事前学習とタスク適応戦略を活用する。
提案手法
- MAGVIT-v2を用いて画像/動画のトークン化を共同で行い、SoundStreamで音声トークン化を行い、統一された離散語彙を作成する。
- デコーダー専用トランスフォーマーをLLMのバックボーンとして採用し、FrozenのT5 XLエンコーダからのテキスト埋め込みを入力として使用する。
- 混合マルチモーダル事前学習目的(text-to-video、text-to-image、image/videoFuture-prediction、inpainting/outpainting、stylization、audio/video)を自己回帰フレームワークで訓練する。
- 双方向プレフィックス入力設計とタスク固有トークンを導入し、1つのモデル内で複数の動画生成タスクを実現する。
- 非自己回帰のウィンドウ型多軸注意力の超解像モジュールを追加し、テキストを条件に低解像度のトークンを高解像度の動画へアップサンプルする。
- 変長シーケンスでの訓練を効率化するために加速交互勾配法を用い、2段階データサンプリング戦略(初期は images 90% / videos 10%、その後入替)で視覚とモーション学習のバランスをとる。
- 高品質なテキスト-動画データでファインチューニングし、動画-音声タスクで品質を高め新機能を有効にする。

実験結果
リサーチクエスチョン
- RQ1単一のLLMベースモデルは複数のモダリティとタスクに対して高品質なゼロショット動画生成を実現できるか?
- RQ2マルチモーダル事前学習タスクはゼロショット性能とモーション忠実度にどのように寄与するか?
- RQ3モデル規模とデータ規模が動画および音声生成品質に与える影響はどの程度か?
- RQ4タスク固有のアダプタを用いずに長距離生成と複雑なタスク(例:編集、スタイリゼーション)を実行できるか?
- RQ5提案された超解像モジュールは過度の計算無しに空間的ディテールを向上させるのにどれほど効果的か?
主な発見
| モデル | MSR-VTT CLIPSIM | MSR-VTT FVD | UCF-101 FVD | MSR-VTT IS |
|---|---|---|---|---|
| CogVideo (EN) | 0.2631 | 1294 | 702 | 25.27 |
| MagicVideo | - | 998 | 655 | - |
| Video LDM | 0.2929 | - | 551 | 33.45 |
| ModelScopeT2V | 0.2930 | 550 | - | - |
| InternVid | 0.2951 | - | 617 | 21.04 |
| VideoFactory | 0.3005 | - | 410 | - |
| Show-1 | 0.3072 | 538 | 394 | 35.42 |
| VideoPoet (Pretrain) | 0.3049 | 213 | 355 | 38.44 |
| VideoPoet (Task adapt) | 0.3123 | - | - | - |
- VideoPoet は MSR-VTT と UCF-101 で CLIPSIM と FVD 指標のゼロショットテキスト-to-動画性能で競合的な結果を達成。
- 高品質なテキスト-動画データでファインチューニングすると MSR-VTT の CLIPSIM が改善され、モーション忠実度が向上する。
- 300M から 8B パラメータへのモデルスケーリングは、時間的一貫性・モーションの改善と、テキストレンダリングやカウントのようなより広い機能をもたらす。
- モデルは多様なタスクでゼロショット能力を示し、新機能のためのタスク連鎖(動画から音声生成を含む)も可能。
- 二段階の事前学習戦略と統一トークン空間の使用により、画像-テキストと動画データの両方からのマルチタスク学習が効率的に可能。
- VideoPoet は最後に生成したフレームを条件に自動回帰的に拡張することで、最大10秒の一貫した長い動画を生成できる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。