QUICK REVIEW

[論文レビュー] Latent Video Diffusion Models for High-Fidelity Long Video Generation

Yingqing He, Tianyu Yang|arXiv (Cornell University)|Nov 23, 2022

Generative Adversarial Networks and Image Synthesis被引用数 26

ひとこと要約

LVDMを紹介。圧縮ビデオ潜在空間で動作する拡散ベースのフレームワークで、高忠実度の短編動画と拡張可能な長編動画を生成。階層的生成、条件付き潜在摂動、そして時間的ドリフトを緩和する無条件ガイダンスを備え、長さの拡張にも対応。テキスト対動画生成へ拡張可能。

ABSTRACT

AI-generated content has attracted lots of attention recently, but photo-realistic video synthesis is still challenging. Although many attempts using GANs and autoregressive models have been made in this area, the visual quality and length of generated videos are far from satisfactory. Diffusion models have shown remarkable results recently but require significant computational resources. To address this, we introduce lightweight video diffusion models by leveraging a low-dimensional 3D latent space, significantly outperforming previous pixel-space video diffusion models under a limited computational budget. In addition, we propose hierarchical diffusion in the latent space such that longer videos with more than one thousand frames can be produced. To further overcome the performance degradation issue for long video generation, we propose conditional latent perturbation and unconditional guidance that effectively mitigate the accumulated errors during the extension of video length. Extensive experiments on small domain datasets of different categories suggest that our framework generates more realistic and longer videos than previous strong baselines. We additionally provide an extension to large-scale text-to-video generation to demonstrate the superiority of our work. Our code and models will be made publicly available.

研究の動機と目的

低次元のビデオ潜在空間でモデリングすることで、ビデオ拡散の計算コストを削減する。
階層的潜在フレームワークを通じて、トレーニング長を超える長編動画の生成を実現する。
条件付き潜在摂動と無条件ガイダンスにより、自己回帰型長編動画生成における品質劣化を緩和する。
複数データセットにわたる短編および長編動画ベンチマークで最先端の結果を示す。
スケーラブルな拡散モデルを用いたオープンドメインのテキスト対動画生成への拡張を示す。

提案手法

軽量な3Dオートエンコーダを用いて動画を圧縮し潜在コードを取得する。
動画潜在空間で動作する統一的な潜在拡散モデル（LVDM）を、無条件生成と条件生成の双方に対して訓練する。
希薄な潜在生成と補間によって長編動画を可能にする階層的潜在生成フレームワークを導入する。
訓練時にノイズ付き潜在量を条件付けして、長期予測を安定化させる条件付き潜在摂動を提案する。
無条件スコアを活用して条件付き長編動画生成を導く無条件ガイダンスを適用し、ドリフトを抑える。
大規模データで事前訓練し、時系列モジュールを恒等に初期化して空間拡散コンポーネントを再利用することで、テキスト対動画生成へモデルを拡張する。

実験結果

リサーチクエスチョン

RQ1拡散モデルを潜在空間で効果的に適用して動画生成の計算量を削減するにはどうすればよいか。
RQ2階層的潜在拡散フレームワークは、トレーニング系列より長い動画を、深刻な品質劣化なしに生成できるか。
RQ3条件付き潜在摂動と無条件ガイダンスは、長編動画の一貫性と忠実度を改善するか。
RQ4潜在拡散モデルをオープンドメインのテキスト対動画生成に拡張して、競争力のある品質を実現できるか。

主な発見

LVDMは複数のデータセットと解像度にわたる短編動画ベンチマークで最先端の結果を達成する。
階層的LVDMフレームワークは1000フレームを超える長編動画を可能にし、TATSなどのベースラインより品質劣化が緩やかである。
条件付き潜在摂動は長編動画での劣化を遅らせ、特に512フレームを超える場合に顕著である。
無条件ガイダンスは条件付き生成のドリフトを効果的に緩和し、長時間の合成時の忠実度を向上させる。
UCF-101、Sky Time-lapse、Taichiデータセットの実験では、LVDMは短編動画のFVDとKVD指標で強力なベースラインを上回り、長編動画生成でも堅牢な改善を示す。
テキスト対動画生成への拡張は、大規模データでのスケーラビリティと一般化可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。