[論文レビュー] VideoComposer: Compositional Video Synthesis with Motion Controllability
VideoComposer は、Spatio-Temporal Condition エンコーダを介してテキスト、空間手がかり、および時間信号(特に運動ベクトル)を同時に条件づける構成的拡散ベースのビデオ合成フレームワークを導入し、高いフレーム間の一貫性と制御可能なモーションを実現します。
The pursuit of controllability as a higher standard of visual content creation has yielded remarkable progress in customizable image synthesis. However, achieving controllable video synthesis remains challenging due to the large variation of temporal dynamics and the requirement of cross-frame temporal consistency. Based on the paradigm of compositional generation, this work presents VideoComposer that allows users to flexibly compose a video with textual conditions, spatial conditions, and more importantly temporal conditions. Specifically, considering the characteristic of video data, we introduce the motion vector from compressed videos as an explicit control signal to provide guidance regarding temporal dynamics. In addition, we develop a Spatio-Temporal Condition encoder (STC-encoder) that serves as a unified interface to effectively incorporate the spatial and temporal relations of sequential inputs, with which the model could make better use of temporal conditions and hence achieve higher inter-frame consistency. Extensive experimental results suggest that VideoComposer is able to control the spatial and temporal patterns simultaneously within a synthesized video in various forms, such as text description, sketch sequence, reference video, or even simply hand-crafted motions. The code and models will be publicly available at https://videocomposer.github.io.
研究の動機と目的
- テキストプロンプトだけを超えた、空間的および時間的制御を取り入れることで、制御可能なビデオ合成を促進する。
- ビデオのための3要因条件付けパラダイム(テキスト、空間、時間)を提案する。
- フレーム間ダイナミクスを導くための運動ベクトルを用いた時間的条件を導入する。
- 逐次条件を統合・融合する Spatio-Temporal Condition エンコーダ(STC-encoder)を開発する。
- 手作りの動作を含む多様な条件セットの下で柔軟な生成能力を実証する。
提案手法
- 事前訓練済みのエンコーダ/デコーダを備え、圧縮ビデオ潜在空間で動作する潜在拡散モデル(VLDM)を採用する。
- 各ビデオ入力を、デノイザを条件付けるためのテキスト、空間、時間の条件に分解する。
- MPEG-4 圧縮ビデオの運動ベクトルを明示的な時間的指針として使用する。
- 軽量な空間モジュールと時間トランスフォーマーからなる STC-encoder を導入し、時空情報を抽出・融合する。
- STC-エンコード済み条件をビデオ潜在空間とチャネル結合で結合し、テキスト/スタイル指針のためのクロスアテンションを適用する。
- 2段階で訓練する:テキストからビデオへの時間的事前訓練と、多様な条件での構成的訓練。
実験結果
リサーチクエスチョン
- RQ1テキスト、空間、および時間の手掛かりを統一的な枠組みで組み合わせて、ビデオ合成をどのように制御できるか。
- RQ2運動ベクトルを明示的な時間信号として組み込むことは、フレーム間の一貫性とモーションの制御性を改善するか。
- RQ3STC-encoder は、連続する空間的・時間的条件を効果的に融合して、さまざまな入力下でビデオ品質を改善できるか。
- RQ4STC-encoder とモーションガイダンスが、フレーム単位の一貫性とモーション精度に与える影響はどうか。
- RQ5VideoComposer は、手作りのモーション、スケッチ、深度マップ、マスクを含むビデオ生成においてどれほど柔軟に対応できるか。
主な発見
| 手法 | テキスト | MV | モーションコントロール ↓ |
|---|---|---|---|
| w/o STC-encoder | ✓ | - | 4.03 |
| w/o STC-encoder | ✓ | ✓ | 2.67 |
| VideoComposer | ✓ | ✓ | 2.18 |
- VideoComposer は、時間的条件として運動ベクトルを使用することでモーションの制御性が向上する。
- STC-encoder の組み込みは、テキスト+スケッチ/深度/モーションベクトルなどの入力間でフレームの一貫性をさらに高める。
- STC-encoder がないベースラインと比較して、VideoComposer はフレームの一貫性スコアが高く、モーション制御誤差が低い。
- VideoComposer は、テキスト、スケッチ、深度マップ、マスクを含む複数の条件タイプで構成的なビデオ生成を実証し、品質を維持。
- モーションベクトルは動く領域を優先するため、表面的な時間的手がかりよりも柔軟で正確なモーション制御を可能にする。
- アブレーションにより、STC-encoder が定性的忠実度と定量的なフレーム一貫性の両方に寄与することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。