Skip to main content
QUICK REVIEW

[論文レビュー] DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

Shengming Yin, Chenfei Wu|arXiv (Cornell University)|Aug 16, 2023
Generative Adversarial Networks and Image Synthesis被引用数 9
ひとこと要約

DragNUWA は、テキスト、画像、軌道入力を統合することで細粒度の制御を実現するオープンドメイン拡散ベースの動画生成モデルで、複雑なオープンドメイン軌道を扱う新規の Trajectory Sampler、Multiscale Fusion、Adaptive Training を搭載している。

ABSTRACT

Controllable video generation has gained significant attention in recent years. However, two main limitations persist: Firstly, most existing works focus on either text, image, or trajectory-based control, leading to an inability to achieve fine-grained control in videos. Secondly, trajectory control research is still in its early stages, with most experiments being conducted on simple datasets like Human3.6M. This constraint limits the models' capability to process open-domain images and effectively handle complex curved trajectories. In this paper, we propose DragNUWA, an open-domain diffusion-based video generation model. To tackle the issue of insufficient control granularity in existing works, we simultaneously introduce text, image, and trajectory information to provide fine-grained control over video content from semantic, spatial, and temporal perspectives. To resolve the problem of limited open-domain trajectory control in current research, We propose trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to control trajectories in different granularities, and an Adaptive Training (AT) strategy to generate consistent videos following trajectories. Our experiments validate the effectiveness of DragNUWA, demonstrating its superior performance in fine-grained control in video generation. The homepage link is \url{https://www.microsoft.com/en-us/research/project/dragnuwa/}

研究の動機と目的

  • テキストや画像だけでなく、包括的な制御信号で制御可能な動画生成を動機づける。
  • 任意かつ複雑なモーションを動画で実現するためのオープンドメイン軌道制御を可能にする。
  • テキスト、画像、軌道の制御を複数の時空間スケールで融合するメカニズムを開発。
  • ユーザー提供の軌道に沿ってコヒーレントな動画を生成するため、訓練を安定化・適応させる。

提案手法

  • DragNUWA を導入する、テキスト p、画像 s、軌道 g を入力として受け付けるエンドツーエンドの拡散ベース動画生成モデル。
  • Trajectory Sampler (TS) はオープンドメインのビデオ光学フローから直接軌道をサンプリングして、任意の軌道のオープンドメインコントロールを可能にする。
  • Multiscale Fusion (MF) は軌道 g と画像 s をテキスト p と共に UNet 内でダウンスケール・統合し、異なる粒度での制御を可能にする。
  • Adaptive Training (AT) は最初に密な光学フローでダイナミクスを安定化させ、その後軌道サンプリングによる疎な軌道条件に適応する。
  • CLIP ベースのテキストエンコーディングと画像/軌道エンコーダ、そして画像オートエンコーダを用いた潜在拡散フレームワークを使用する。

実験結果

リサーチクエスチョン

  • RQ1テキスト、画像、軌道の制御を統合することで、単一モダリティを用いるよりもより細粒度の動画生成が可能か。
  • RQ2オープンドメイン軌道をどのように学習・適用して、マルチオブジェクトおよびカメラ運動を伴う動画合成に活かすか。
  • RQ3軌道サンプリング、マルチスケール統合、適応訓練といったメカニズムは、拡散ベースの動画生成の一貫性と制御性をどのように向上させるか。
  • RQ4人間のポーズや単純な動作を超えるオープンドメイン動画と複雑な軌道へモデルは一般化するか。

主な発見

  • DragNUWA は、テキスト、画像、軌道信号を共同で活用することにより、動画内容の細粒度制御を向上させている。
  • Trajectory Sampler は光学フローからサンプルすることでオープンドメイン軌道学習を可能にし、クリップごとに複数の軌道をサポートする。
  • Multiscale Fusion は g と s を p とともに複数の UNet スケールで統合し、時系列・空間的一貫性を改善する。
  • Adaptive Training は密な光学フロー条件付けから疎な軌道条件付けへ移行することで生成を安定化させる。
  • WebVid と VideoHD の実験により、オープンドメイン動画と複雑な曲線軌道、複数の動く物体を扱えることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。