[論文レビュー] Imagen Video: High Definition Video Generation with Diffusion Models
Imagen Video は、拡散モデルのカスケードを用いて、空間・時間の超解像を伴う高解像度かつテキスト条件付きの動画を生成し、段階的蒸留と分類子フリーガイダンスにより高速で高品質なサンプリングを実現します。
We present Imagen Video, a text-conditional video generation system based on a cascade of video diffusion models. Given a text prompt, Imagen Video generates high definition videos using a base video generation model and a sequence of interleaved spatial and temporal video super-resolution models. We describe how we scale up the system as a high definition text-to-video model including design decisions such as the choice of fully-convolutional temporal and spatial super-resolution models at certain resolutions, and the choice of the v-parameterization of diffusion models. In addition, we confirm and transfer findings from previous work on diffusion-based image generation to the video generation setting. Finally, we apply progressive distillation to our video models with classifier-free guidance for fast, high quality sampling. We find Imagen Video not only capable of generating videos of high fidelity, but also having a high degree of controllability and world knowledge, including the ability to generate diverse videos and text animations in various artistic styles and with 3D object understanding. See https://imagen.research.google/video/ for samples.
研究の動機と目的
- 高解像度のテキストから動画への生成のためのカスケード拡散アプローチを実証する。
- テキスト条件付けと凍結されたテキストエンコーダが画像から動画生成へ転用される方法を示す。
- 動画サンプリングの効率性のための拡散パラメータ化、条件付け拡張、そして段階的蒸留を検討する。
- 動画生成におけるモデルの制御性、3D理解、および多様なアーティスティックスタイルを評価する。
提案手法
- 基礎ビデオモデルに加えて3つの空間SRと3つの時間SRモデルからなる7段階の拡散サブモデルのカスケードを採用し、1280x768 の動画を 24 fps で生成する。
- 入力テキストに対して全拡散モデルを条件づけする凍結された T5-XXL テキストエンコーダを使用する。
- 安定性の向上と色アーチファクトの低減のため、全モデルに対して v-prediction パラメータ化を採用する。
- 画像テキストおよび動画テキストデータで全モデルを共同訓練し、画像は単一フレーム動画として扱い、より大規模なデータセットを可能にする。
- 分類子フリーガイダンスを適用してテキストプロンプトとの整合性を改善し、アーティファクト管理のための動的クリッピングや振動ガイダンスなどの手法を含む。
- 段階的蒸留を利用してサンプリングステップを削減し生成を加速し、蒸留パイプラインを実現してサンプリングを大幅に高速化する。
実験結果
リサーチクエスチョン
- RQ1カスケード拡散モデルは、テキストプロンプトから高解像度で時間的一貫性のある動画をどれだけうまく生成できるか?
- RQ2パラメータ化(v-prediction 対 epsilon-prediction)が高解像度での動画サンプル品質と安定性にどのような影響を与えるか?
- RQ3画像と動画の共同訓練は動画品質を向上させ、スタイルおよび3D理解の転送を可能にするか。
- RQ4ガイダンスを伴う高速で高品質な動画サンプルを提供する上で、段階的蒸留はどれほど効果的か。
主な発見
| Guidance | Base Steps | SR Steps | CLIP Score | CLIP R-Precision | Sampling Time |
|---|---|---|---|---|---|
| constant=6 | 256 | 128 | 25.19 ± .03 | 92.12 ± .53 | 618 sec |
| oscillate(15,1) | 256 | 128 | 25.02 ± .08 | 89.91 ± .96 | 618 sec |
| constant=6 | 256 | 8 | 25.29 ± .05 | 90.88 ± .50 | 135 sec |
| oscillate(15,1) | 256 | 8 | 25.15 ± .09 | 88.78 ± .69 | 135 sec |
| constant=6 | 8 | 8 | 25.03 ± .05 | 89.68 ± .38 | 35 sec |
| oscillate(15,1) | 8 | 8 | 25.12 ± .07 | 90.97 ± .46 | 35 sec |
| ground truth | 24.27 | 86.18 |
- モデルは高忠実度の1280x768動画を24 fps(5.3秒、128フレーム)で生成し、時間的一貫性とプロンプトとの整合性が高い。
- ベースビデオモデルのスケーリングは一貫してFVDとCLIPスコアを改善し、より大きなパラメータ数の利点を示している。
- 高解像度で v-prediction が epsilon-prediction を上回り、色ずれを減らし収束を加速する。
- 蒸留されたカスケードは、元のカスケードと比較してほぼ18倍の高速サンプリングを実現し、知覚品質は同程度、FLOPsは約36倍減少する。
- 画像と動画の共同訓練は動画品質を向上させ、スタイルや3Dのような理解の転送を可能にする。
- 分類子フリーガイダンスはプロンプトの整合性とサンプル品質を大幅に向上させ、振動ガイダンスはサンプリング時の飽和アーティファクトを緩和する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。