QUICK REVIEW

[論文レビュー] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Jay Zhangjie Wu, Yixiao Ge|arXiv (Cornell University)|Dec 22, 2022

Generative Adversarial Networks and Image Synthesis被引用数 27

ひとこと要約

Tune-A-Video は、事前学習済みのテキストから画像への拡散モデルを単一のテキスト-video ペアで微調整することで、テキストプロンプトから動画を生成・編集する方法を示します。スパースな時空間注意機構と DDIM inversion を用いて時間的一貫性を確保します。

ABSTRACT

To replicate the success of text-to-image (T2I) generation, recent works employ large-scale video datasets to train a text-to-video (T2V) generator. Despite their promising results, such paradigm is computationally expensive. In this work, we propose a new T2V generation setting$\unicode{x2014}$One-Shot Video Tuning, where only one text-video pair is presented. Our model is built on state-of-the-art T2I diffusion models pre-trained on massive image data. We make two key observations: 1) T2I models can generate still images that represent verb terms; 2) extending T2I models to generate multiple images concurrently exhibits surprisingly good content consistency. To further learn continuous motion, we introduce Tune-A-Video, which involves a tailored spatio-temporal attention mechanism and an efficient one-shot tuning strategy. At inference, we employ DDIM inversion to provide structure guidance for sampling. Extensive qualitative and numerical experiments demonstrate the remarkable ability of our method across various applications.

研究の動機と目的

画像データで訓練された既存の T2I モデルを活用して、コスト効率の高い T2V 生成設定を動機付ける。
T2I モデルが動詞主導の動作を表現でき、時空間領域に拡張した場合に一貫した内容を生成できることを示す。
事前学習済み知識を保持するために、スパースな時空間注意とターゲットを絞ったパラメータ更新を特徴とする軽量な Tune-A-Video フレームワークを提案する。
推論時に DDIM inversion を用いた構造ガイダンスを組み込み、時間的に一貫した動作を保証する。

提案手法

ビデオ生成を可能にするため、2D Latent Diffusion Model (LDM) を時空間ドメインへ拡張する。
計算量を O(2mN^2) に抑えるため、最初のフレームと前のフレームに着目するスパースな時空間注意機構(ST-Attn)を導入する。
ST-Attn の射影行列 (W^Q) のみを微調整し、Cross-Attn のクエリを更新、KとVを固定して既存知識を保持する。
入力動画から構造化潜在表現を得るために DDIM inversion を使用し、時間的一貫性のある出力のために編集されたプロンプトでサンプリングを導く。
個人化された・条件付きの T2I モデル（例: DreamBooth、T2I-Adapter、ControlNet）との互換性を有効にして、制御可能な生成を実現する。
訓練は標準的な LDM の目的関数に従い、推論は分類器なしガイダンスを用いた DDIM サンプリングを用いる。

実験結果

リサーチクエスチョン

RQ1単一のテキスト-動画ペアで微調整した事前学習済み T2I 拡散モデルは、編集されたプロンプトから時間的に一貫した動画を生成できるか。
RQ2スパースな時空間注意と選択的な微調整は、事前学習済みの知識を保持しつつ動作制御を可能にするか。
RQ3DDIM inversion は、サンプリング時に入力の動きを編集されたプロンプトへ転送する構造ガイダンスを提供できるか。

主な発見

Method	Frame Consisitency	Textual alignment	CLIP Score	User Preference
CogVideo	90.64	12.14	23.91	15.00
Plug-and-Play	88.89	37.86	27.56	23.57
Tune-A-Video	92.40	87.86* / 62.14**	27.58	85.00* / 76.43**

Tune-A-Video は、事前学習済み T2I モデルを用いて、1つのテキスト-動画ペアから時間的に一貫した動画生成を実現する。
スパースな ST-Attn と選択的微調整は、コンテンツの一貫性を保持し、効率的な更新で動作適応を可能にする。
DDIM inversion は、サンプリング時に入力の動きを編集されたプロンプトへ転送する構造ガイダンスを提供する。
定性的および定量的実験により、Tune-A-Video がフレームの一貫性とテキスト整合性でベースラインを上回ることを示す。
本手法は、既存の T2I アダプターや拡散ベースの編集によるパーソナライズと条件付けをサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。