[論文レビュー] Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
本論文は Video Latent Diffusion Models (Video LDMs) を提案し、事前学習済みの画像 LDM を高解像度で時間的一貫性のある動画生成器へと変換するために、時相整合レイヤを挿入・訓練する手法を示す。長尺で高品質な運転動画とテキストから動画への生成を可能にする。
Latent Diffusion Models (LDMs) enable high-quality image synthesis while avoiding excessive compute demands by training a diffusion model in a compressed lower-dimensional latent space. Here, we apply the LDM paradigm to high-resolution video generation, a particularly resource-intensive task. We first pre-train an LDM on images only; then, we turn the image generator into a video generator by introducing a temporal dimension to the latent space diffusion model and fine-tuning on encoded image sequences, i.e., videos. Similarly, we temporally align diffusion model upsamplers, turning them into temporally consistent video super resolution models. We focus on two relevant real-world applications: Simulation of in-the-wild driving data and creative content creation with text-to-video modeling. In particular, we validate our Video LDM on real driving videos of resolution 512 x 1024, achieving state-of-the-art performance. Furthermore, our approach can easily leverage off-the-shelf pre-trained image LDMs, as we only need to train a temporal alignment model in that case. Doing so, we turn the publicly available, state-of-the-art text-to-image LDM Stable Diffusion into an efficient and expressive text-to-video model with resolution up to 1280 x 2048. We show that the temporal layers trained in this way generalize to different fine-tuned text-to-image LDMs. Utilizing this property, we show the first results for personalized text-to-video generation, opening exciting directions for future content creation. Project page: https://research.nvidia.com/labs/toronto-ai/VideoLDM/
研究の動機と目的
- 事前学習済みの画像拡散モデルを活用して、高解像度で長尺の動画を効率的に生成する。
- 全体の再訓練を行わず、画像生成モデルを動画生成モデルへ変換する時相整合レイヤを導入する。
- 運転シーンとテキストから動画へのタスクに対して、時系列的に整合性が取れた高品質な動画合成を実現する。
- 異なる画像 LDM バックボーン間での時相レイヤの転移性を実証し、個別化されたテキストから動画生成を可能にする。
提案手法
- 凍結した画像 LDM ボトムを用いて、Video LDM を形成するために時相レイヤ(時相注意機構または3D畳み込みブロック)を挿入する。
- 空間レイヤを固定し、時相レイヤのみ訓練し、画像拡散と同様のノイズ除去目的を用いる。
- 効率とスケーラビリティを向上させるため、圧縮された潜在空間で動作する潜在拡散フレームワークを使用する。
- ピクセル空間での時系列的一貫性を達成するため、デコーダ部を微調整する(時系列オートエンコーダのファインチューニング)。
- 初期フレームに条件付けられたシーケンスを合成するため、予測モデルと文脈マスキングを用いた長期生成を可能にする。
- 潜在空間またはピクセル空間で時相整合のアップサンプラーを訓練して、動画対応の超解像を適用する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みの画像拡散モデルを、時相レイヤを追加することで高解像度・時間的に一貫した動画生成へ再利用できるか?
- RQ2潜在空間での時相整合は長尺動画の品質と一貫性にどう影響するか?
- RQ3ある画像 LDM バックボーンで訓練された時相レイヤは、他のバックボーンへどの程度転移できるか、また個別化されたテキストから動画生成に利用できるか?
- RQ4デコーダとアップサンプラーの動画ファインチューニングが時系列的一貫性と品質へ与える影響は何か?
主な発見
| 方法 | FVD | FID |
|---|---|---|
| LVG [6] | 478 | 53.5 |
| Ours | 389 | 31.6 |
| Ours (cond.) | 356 | 51.9 |
- 512×1024 解像度の実車運転シーン動画で最先端の動画品質を達成。
- Video LDM の時相微調整は FVD で Long Video GAN のベースラインを上回り、FID は競争力を維持。
- 動画アップサンプラーの時相整合は、時系列的一貫性を維持し FVD の劣化を防ぐために重要。
- Stable Diffusion を時相レイヤを用いたテキストから動画への LDM に変換すると、1280×2048 の出力を得られ、DreamBooth による個別化テキストから動画生成を可能にする。
- 一つの画像 LDM バックボーンで訓練された時相レイヤは、別のチェックポイントへ一般化し、個別化テキストから動画生成を可能にする。
- Video LDM は数分に及ぶ長尺動画をサポートし、多模態の運転シナリオシミュレーションを可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。