[論文レビュー] CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
CogVideoは、オープンドメインのテキストからビデオ生成のための9.4Bパラメータのトランスフォーマーです。CogView2をマルチフレームレートの階層的トレーニング戦略とデュアルチャネルアテンションでファインチューニングし、公開モデルの中で最先端の結果を達成します。
Large-scale pretrained transformers have created milestones in text (GPT-3) and text-to-image (DALL-E and CogView) generation. Its application to video generation is still facing many challenges: The potential huge computation cost makes the training from scratch unaffordable; The scarcity and weak relevance of text-video datasets hinder the model understanding complex movement semantics. In this work, we present 9B-parameter transformer CogVideo, trained by inheriting a pretrained text-to-image model, CogView2. We also propose multi-frame-rate hierarchical training strategy to better align text and video clips. As (probably) the first open-source large-scale pretrained text-to-video model, CogVideo outperforms all publicly available models at a large margin in machine and human evaluations.
研究の動機と目的
- テキストおよびテキストから画像へのドメインを超えた大規模事前学習トランスフォーマーによるテキスト-to-ビデオ生成の動機づけ。
- 完全なスクラッチからの事前学習なしで動画生成を促進するため、事前学習済みのテキスト-to-画像知識を活用する。
- テキストと時間的なビデオ意味論を整合させるためのマルチフレームレート階層的トレーニング戦略を提案する。
- 画像モデルの知識を効率的に動画生成へ統合するデュアルチャネルアテンション機構を開発する。
提案手法
- 9.4Bパラメータのトランスフォーマーを用いて、テキストからビデオ生成のために事前学習済みCogView2テキスト-to-画像モデルをファインチューニングする。
- フレームレートトークンを組み込み、段階的生成(連続するキーフレーム→フレーム補間)を用いてテキストプロンプトとフレームを整合させるため、マルチフレームレート階層的トレーニングを導入する。
- CogView2のパラメータを凍結し、追加した時間空間アテンションチャネル(attention-plus)のみを訓練して、画像モデリングと動画モデリングを融合させるデュアルチャネルアテンションブロックを適用する。
- 自己回帰生成へ拡張したShifted Window (Swin)アテンションを適用し、部分的な並列化を可能にしてメモリコストを削減する。
- CogLM風の双方向/単方向マスキングを用い、補間のための双方向コンテキストを許容しつつ自己回帰フレーム生成を維持する。
実験結果
リサーチクエスチョン
- RQ1既存のテキスト-to-画像の事前学習モデルを用いて、オープンドメインのテキスト-to-ビデオ生成で高い性能を達成するにはどうすればよいか。
- RQ2マルチフレームレート階層的トレーニング戦略は、テキスト-動画の整合性および動作意味論を改善するか。
- RQ3デュアルチャネルアテンション機構は、完全な再訓練なしに画像言語知識を動画生成へ効果的に転移できるか。
- RQ4自己回帰的な動画生成の効率に、Shifted Windowアテンションの使用が与える影響はどの程度か。
主な発見
| 方法 | IS | FVD |
|---|---|---|
| CogVideo (Ours) | 50.46 | 626 |
| CogVideo (Ours) (1) with hierarchical generation? | - | - |
| VideoGPT | - | - |
| DVD-GAN | - | - |
| TGANv2 | 28.87 | 1209 |
| MoCoGAN-HD | 32.36 | 838 |
| DIGAN (with ground truth token) | 29.71 | 655 |
| DIGAN | 32.70 | 577 |
| TATS-base | 79.28 | 332 |
- CogVideoは、UCF-101およびKinetics-600において公開されているテキスト-to-ビデオモデルの中で定性的・定量的な最先端の性能を達成する。
- 階層的なマルチフレームレート生成は、単一段階の生成と比べてテキスト-動画の整合性と動作意味論を向上させる。
- デュアルチャネルアテンション(attention-plus)でCogView2をファインチューニングする方が、スクラッチからの訓練やランダム初期化よりも良い結果を生み出し、CogView2のパラメータを凍結したままにできる。
- Shifted Windowアテンションは、自己回帰的動画生成における部分的なフレームレベルの並列性を可能にし、推論を加速する。
- 人間評価では、CogVideoがフレームの質感、動きのリアリズム、意味的関連性のすべてでベースラインを上回る。
- アブレーション研究は、階層的アプローチとCogView2初期化モデルがランダム初期化より優れていることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。