[論文レビュー] Phenaki: Variable Length Video Generation From Open Domain Textual Description
Phenaki は因果的ビデオトークナイザと双方向トランスフォーマを用いて、時変テキストプロンプトから長いビデオを生成する可変長ビデオ生成モデルを導入する。画像テキストおよびビデオテキストデータの両方で訓練され、一般化を向上させる。
We present Phenaki, a model capable of realistic video synthesis, given a sequence of textual prompts. Generating videos from text is particularly challenging due to the computational cost, limited quantities of high quality text-video data and variable length of videos. To address these issues, we introduce a new model for learning video representation which compresses the video to a small representation of discrete tokens. This tokenizer uses causal attention in time, which allows it to work with variable-length videos. To generate video tokens from text we are using a bidirectional masked transformer conditioned on pre-computed text tokens. The generated video tokens are subsequently de-tokenized to create the actual video. To address data issues, we demonstrate how joint training on a large corpus of image-text pairs as well as a smaller number of video-text examples can result in generalization beyond what is available in the video datasets. Compared to the previous video generation methods, Phenaki can generate arbitrary long videos conditioned on a sequence of prompts (i.e. time variable text or a story) in open domain. To the best of our knowledge, this is the first time a paper studies generating videos from time variable prompts. In addition, compared to the per-frame baselines, the proposed video encoder-decoder computes fewer tokens per video but results in better spatio-temporal consistency.
研究の動機と目的
- 長く連続したビデオ生成を、オープンドメインのプロンプトの系列に conditioned して実現する必要性を動機づける。
- 可変長ビデオエンコーディングを可能にするコンパクトな因果的ビデオトークナイザ(C-ViViT)を提案する。
- テキストトークンを条件としたマスク付き双方向トランスフォーマに基づくテキスト-to-ビデオ生成器を開発する。
- 一般化を改善するための画像テキストとビデオテキストの共同訓練の利点を示す。
- ストーリースタイルのプロンプトや条件付きビデオ外挿などの機能を紹介する。
提案手法
- 因果的で自己回帰的なビデオエンコーダとして C-ViViT を導入し、ビデオを離散トークンへ圧縮しつつ可変長入力を可能にする。
- 時空間トークンからフレームを再構成するデコーダを、時刻因果トランスフォーマとベクトル量子化で用いる。
- テキスト埋め込みを条件としたビデオトークンを予測する双方向トランスフォーマを用いたマスクドビジュアルトークンモデリング(MVTM)目的を訓練する。
- MVTM を事前計算されたテキストトークン(T5X 経由)で条件づけ、推論時に分類器フリーガイダンスを適用する。
- 過去に生成したフレームから未来のトークンを自己回帰的に外挿して長期的な生成を可能にする。
- 共同訓練戦略:大規模な画像テキストデータと小規模なテキスト-ビデオデータを混ぜることで整合性と多様性を向上させつつ、トークン数を削減する。
実験結果
リサーチクエスチョン
- RQ1時変プロンプトへ条件づけられた可変長ビデオ生成を、時間的因果性を持つビデオエンコーダ-デコーダでサポートできるか。
- RQ2画像テキストとビデオテキストデータの共同訓練は、オープンドメインのビデオ生成品質と一般化を改善するか。
- RQ3マスク付き双方向トランスフォーマは、自己回帰サンプル法よりも効率的に一貫性のある長時間ビデオを生成できるか。
- RQ4物語風のプロンプト系列で条件づけられたビデオモデルは、時間的に整合したダイナミクスをどれだけ良く生成できるか。
- RQ5動的なプロンプト系列(物語)を用いることが、ビデオの一貫性やスタイルにどのような影響を与えるか。
主な発見
- Phenaki はオープンドメインのプロンプトに条件づけられた、時間的に一貫性があり多様なビデオを生成できる。
- causal エンコーダを用いて可変長を扱い、1.4 秒クリップの訓練にも関わらず長いビデオ(分単位)を生成できる。
- 画像テキストデータとビデオテキストデータの共同訓練は、概念のカバレッジとスタイル転移(例:鉛筆画)を、ビデオのみ訓練より改善する。
- マスク付き双方向 MVTM のサンプリングは、自己回帰法と比較してサンプリングステップ数を1桁減らしつつ品質を維持する。
- C-ViViT は per-frame 法よりも少ないトークン数(40% 削減)でビデオをエンコードし、空間-時間の整合性を向上させる。
- Phenaki は時間変化プロンプトをサポートし、生成ビデオ全体でダイナミックなストーリーテリングやシーン遷移を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。