[論文レビュー] Lumiere: A Space-Time Diffusion Model for Video Generation
Lumiere は Space-Time U-Net を用いてワンパスで全長の動画を生成する時空間拡散モデルを提示し、グローバルな時点整合性を実現し、多様な動画編集タスクを可能にします。
We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
研究の動機と目的
- テキストから動画への生成におけるグローバルに一貫した運動の必要性を動機づける。
- 空間と時間の両方でダウンサンプリングする Space-Time U-Net (STUNet) を提案し、全長の動画を1回のパスで生成する。
- 空間超解像を伴う事前学習済みのテキストから画像への拡散モデルを活用して高解像度の動画を生成する。
- SSRの重なるセグメント間で時間的連続性を保証するためにMultidiffusionを導入する。
- 画像から動画、動画のインペイント、スタイライズド生成を含む応用を示す。
提案手法
- 空間と時間の両方でダウンサンプリングし、ほとんどの計算をコンパクトな時空間表現上で処理する Space-Time U-Net (STUNet) を紹介する。
- 事前学習済みの T2I レイヤーの後に時間方向のダウン/アップサンプリングモジュールを組み込み、全長生成を可能にする。
- 最も粗いレベルで因子分解された時空間畳み込みと時間的アテンションを用いて動きを捉えつつ計算量を制御する。
- 開始時の挙動を維持するため、時間ブロックを最近傍ダウンサンプリング/アップサンプリングで初期化する。
- 全体の動画のグローバルな一貫性のため、重なり合う時間窓からの SSR 予測を集約するよう Multidiffusion を拡張する。
- 新規追加の時間層を訓練しつつ、事前学習済みの T2I 重みを固定して訓練する。
実験結果
リサーチクエスチョン
- RQ1単一のベース拡散モデルが、カスケード TSR モデルに依存せずに、全長の動画をグローバルな時系列整合性を持って生成できるか。
- RQ2高解像度の動画生成において、重なり合う時間窓にわたって空間的超解像をどのように適用し、一貫性を維持できるか。
- RQ3全長T2Vモデルによって、どのような下流タスク(画像から動画、インペイント、スタイライズ)を効果的にサポートできるか。
- RQ4空間-時間 U-Net に時間ダイナミクスを基づかせることは、従来のカスケード手法と比べて運動の一貫性を改善するか。
- RQ5条件付け(画像、マスク)が動画生成の品質と制御性に与える影響は何か。
主な発見
| Method | FVD ↓ | IS ↑ |
|---|---|---|
| MagicVideo | 655.00 | - |
| Emu Video | 606.20 | 42.70 |
| Video LDM | 550.61 | 33.45 |
| Show-1 | 394.46 | 35.42 |
| Make-A-Video | 367.23 | 33.00 |
| PYoCo | 355.19 | 47.76 |
| SVD | 242.02 | - |
| Lumiere (Ours) | 332.49 | 37.54 |
- 5秒間、80フレームの動画を16fpsで生成することで、最先端または競争力のあるテキストから動画への生成品質を達成。
- STUNetを用いて全長の時間的持続を1パスで生成することで、グローバルに一貫した動作を生成。
- 画像から動画、動画のインペイント、スタイライズド生成、 cinematographic editing を含む多様な下流能力をデモ。
- Zero-shot UCF101評価は、ベースラインに対して競争力のあるFVDとISスコアを示し、ユーザ研究ではLumiereがベースラインを上回る。
- Multidiffusion-based SSR over overlapping windows yields temporally coherent high-resolution videos without boundary artifacts.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。