[論文レビュー] ControlVideo: Training-free Controllable Text-to-Video Generation
ControlVideo は完全なクロスフレームアテンション、インターレーブドフレームスムーサー、階層サンプラーを取り入れることにより、トレーニング不要で制御可能なテキスト→動画生成フレームワークを提供し、一般的なGPU上で高品質かつ時間的一貫性のある動画を実現します。
Text-driven diffusion models have unlocked unprecedented abilities in image generation, whereas their video counterpart still lags behind due to the excessive training cost of temporal modeling. Besides the training burden, the generated videos also suffer from appearance inconsistency and structural flickers, especially in long video synthesis. To address these challenges, we design a \emph{training-free} framework called extbf{ControlVideo} to enable natural and efficient text-to-video generation. ControlVideo, adapted from ControlNet, leverages coarsely structural consistency from input motion sequences, and introduces three modules to improve video generation. Firstly, to ensure appearance coherence between frames, ControlVideo adds fully cross-frame interaction in self-attention modules. Secondly, to mitigate the flicker effect, it introduces an interleaved-frame smoother that employs frame interpolation on alternated frames. Finally, to produce long videos efficiently, it utilizes a hierarchical sampler that separately synthesizes each short clip with holistic coherency. Empowered with these modules, ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs quantitatively and qualitatively. Notably, thanks to the efficient designs, it generates both short and long videos within several minutes using one NVIDIA 2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.
研究の動機と目的
- 高価な時系列モデルの訓練を必要とせず、効率的な動画生成を動機づける。
- 事前学習済みのテキストから画像へのモデルを活用して外観の一貫性のある動画を実現する。
- フレーム補間ベースのスムージングによって構造的なフリッカーを低減する。
- メモリ効率の高い階層サンプリング戦略によって長時間の動画をサポートする。
提案手法
- ControlNet を temporal 軸に沿って U-Net を膨張させつつ ControlNet の補助ブランチを保持して動画へ適用する。
- 全フレームをより大きな時間次元に連結して自己注意で完全なフレーム間相互作用を導入する。
- 選択された時刻における三フレームクリップの中央フレームを補間してデフリッカを行うインタリーブドフレームスムーサーを追加する。
- 長距離の一貫性を確保するため、長い動画を短いクリップに分割し、キーフレームを事前生成する階層サンプラーを実装する。
- 滑らかさのために 50 timesteps の DDIM サンプリングと軽量なフレーム補間(RIFE)を使用する。
実験結果
リサーチクエスチョン
- RQ1トレーニング不要な画像から動画モデルの適応は、テキストとモーションシーケンスを条件に高品質で時系列的一貫性のある動画生成を達成できるか?
- RQ2完全なフレーム間全体アテンションは、最初のフレームのみやまばらなフレーム間機構と比べて外観の一貫性を改善するか?
- RQ3インタリーブドフレームスムーサーは、フレーム個性を犠牲にせず構造的なフリッカーを低減するか?
- RQ4一般的なGPU上で階層サンプラーを用いて長時間の動画を効率的に生成できるか?
主な発見
| 方法 | 構造条件 | フレーム一貫性 (%) | プロンプト一貫性 (%) |
|---|---|---|---|
| Tune-A-Video | DDIM Inversion | 94.53 | 31.57 |
| Text2Video-Zero | Canny Edge | 95.17 | 30.74 |
| ControlVideo | Canny Edge | 96.83 | 30.75 |
| Text2Video-Zero | Depth Map | 95.99 | 31.69 |
| ControlVideo | Depth Map | 97.22 | 31.81 |
- ControlVideo はモーションプロンプト対での構造とフレーム品質の両方でベンチマークを上回る。
- Depth-conditioned 動画は canny-conditioned 動画より時間的一貫性とテキスト忠実度が高い。
- Fully cross-frame interaction は他のフレーム間機構よりフレーム一貫性を高く達成し、スムーサーの追加で一貫性がさらに向上。
- Hierarchical sampler は標準的なGPU上で長時間動画生成を良好な全体的一貫性とともに実現。
- RTX 2080Ti では短い動画 (~15 frames) は約 2 分、長い動画 (~100 frames) は約 10 分で生成可能。
- Qualitative results show better appearance consistency and fewer artifacts compared to Tune-A-Video and Text2Video-Zero.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。