QUICK REVIEW

[論文レビュー] Make-A-Video: Text-to-Video Generation without Text-Video Data

Uriel Singer, Adam Polyak|arXiv (Cornell University)|Sep 29, 2022

Multimodal Machine Learning Applications被引用数 311

ひとこと要約

Make-A-Video は、事前学習済みのテキスト→画像モデルを時空間層とフレーム補間モジュールを追加することでテキスト→ビデオシステムへ変換し、ペアとなるテキスト-ビデオデータを使用せずに最先端の結果を達成します。画像 priors とラベルなしのビデオデータをトレーニングに活用します。

ABSTRACT

We propose Make-A-Video -- an approach for directly translating the tremendous recent progress in Text-to-Image (T2I) generation to Text-to-Video (T2V). Our intuition is simple: learn what the world looks like and how it is described from paired text-image data, and learn how the world moves from unsupervised video footage. Make-A-Video has three advantages: (1) it accelerates training of the T2V model (it does not need to learn visual and multimodal representations from scratch), (2) it does not require paired text-video data, and (3) the generated videos inherit the vastness (diversity in aesthetic, fantastical depictions, etc.) of today's image generation models. We design a simple yet effective way to build on T2I models with novel and effective spatial-temporal modules. First, we decompose the full temporal U-Net and attention tensors and approximate them in space and time. Second, we design a spatial temporal pipeline to generate high resolution and frame rate videos with a video decoder, interpolation model and two super resolution models that can enable various applications besides T2V. In all aspects, spatial and temporal resolution, faithfulness to text, and quality, Make-A-Video sets the new state-of-the-art in text-to-video generation, as determined by both qualitative and quantitative measures.

研究の動機と目的

大規模なテキスト-画像 priors を活用して、ペアとなるテキスト-ビデオデータなしでビデオ生成をブートストラップする。
2D 拡散アーキテクチャを pseudo-3D 畳み込みとアテンションを介して時系列領域へ拡張する。
フレーム補間と時空間超解像を組み合わせて、高解像度・高フレームレートの動画を生成する。
fps 条件付けと時系列モジュールを通じて、制御可能なフレームレートとスループットを実現する。
標準ベンチマークにおける既存のテキスト→ビデオシステムと比較して、ゼロショットおよびファインチューニング済みの性能を評価する。

提案手法

テキスト-画像ペアで学習した事前学習済みのテキスト→画像(T2I)モデルを起点とする（P, D, SR_l, SR_h）。
空間層を時系列領域へ拡張するため、pseudo-3D (P3D) 畳み込みとアテンションを導入し、滑らかな遷移のために恒等写像で初期化する。
フレーム補間ネットワーク（↑F）と時間条件付け（fps）を追加して、より高いフレームレートの動画を生成する。
初期の画像のみの訓練後、ラベルなしビデオデータで時系列層を訓練し、クリップは各々 16 フレーム、fps はランダム化。
空間と時間の両方での高解像度と時間的整合性を達成するために、2 段階のアップスケーリングパイプライン（SR_l^t, SR_h）を用いる。
マスク付きフレーム補間を可能にするために、時系列デコーダの微調整を行い、時系列アップサンプリングを実現する。
推論は以下のパイプラインに従う：prior P から image embedding、D^t から 16x64x64 のフレーム、↑F による補間、SR_l^t と SR_h でそれぞれ 256x256 および 768x768 へアップスケール、最終動画を生成。

実験結果

リサーチクエスチョン

RQ1テキスト-画像ファウンデーションモデルを、テキスト-ビデオ対を用いずに効果的に再利用して動画を生成できるか。
RQ22D 画像 priors から初期化された時空間拡張が、動画における一貫した運動と忠実なテキスト整合を可能にするか。
RQ3フレーム補間と時空間超解像は、テキストプロンプト下での動画品質とフレームレートにどのように影響するか。
RQ4ゼロショットとファインチューニング済みの T2V の性能は、標準ベンチマークで既存の最先端手法と比較してどうか。
RQ5fps 条件付けが動画生成の多様性とリアリズムに与える影響はどの程度か。

主な発見

Make-A-Video は、定性的・定量的な指標において、テキスト→ビデオ生成で最先端の結果を達成する。
ゼロショット MSR-VTT 評価: Make-A-Video は GODIVA と NÜWA を上回り、CogVideo を英語・中国語設定で凌駕する（Table 1）。
UCF-101 ゼロショット: Make-A-Video は IS 33.00、FVD 367.23 を達成し、いくつかの従来手法を上回る；ファインチューニングで 82.55 IS、81.25 FVD（Table 2）。
ヒトによる評価では、DrawBench と著者の評価セットで、Quality と Faithfulness の点で Make-A-Video が CogVideo および VDM ベースラインに対して強い優位を示す（Table 3）。
フレーム補間（↑F）は、動きのリアリズムにおいて、ユーザ調査で FILM より好まれる傾向がある（あるセットで 62%、別のセットで 54%）。
このアプローチはオープンソースデータセット（WebVid-10M、HD-VILA-100M）を使用し、ペアとなるテキスト-ビデオデータに依存せず、スケーラブルな訓練を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。