[論文レビュー] Movie Gen: A Cast of Media Foundation Models
tldr: Movie Gen は、大規模な画像・動画・音声データ上で Flow Matching を用いて訓練された、同期された音声付きの高品質な1080p HD 動画、個人化動画、精密な動画編集を実現するファウンデーションモデルのキャストを提示します。テキストから動画、動画の個人化、動画編集、テキストから音声へのタスクで最先端の結果を達成します。
We present Movie Gen, a cast of foundation models that generates high-quality, 1080p HD videos with different aspect ratios and synchronized audio. We also show additional capabilities such as precise instruction-based video editing and generation of personalized videos based on a user's image. Our models set a new state-of-the-art on multiple tasks: text-to-video synthesis, video personalization, video editing, video-to-audio generation, and text-to-audio generation. Our largest video generation model is a 30B parameter transformer trained with a maximum context length of 73K video tokens, corresponding to a generated video of 16 seconds at 16 frames-per-second. We show multiple technical innovations and simplifications on the architecture, latent spaces, training objectives and recipes, data curation, evaluation protocols, parallelization techniques, and inference optimizations that allow us to reap the benefits of scaling pre-training data, model size, and training compute for training large scale media generation models. We hope this paper helps the research community to accelerate progress and innovation in media generation models. All videos from this paper are available at https://go.fb.me/MovieGenResearchVideos.
研究の動機と目的
- 統一的でスケーラブルなメディア生成ファウンデーションモデル(画像、動画、音声)群の開発を推進する。
- テキストから動画、動画個人化、編集、音声生成における最先端能力を示す。
- 長い文脈・高解像度の動画生成を可能にするアーキテクチャ、トレーニングレシピ、データ選定、推論最適化を説明する。
- 個人化と正確な編集のためのポストトレーニング手順を導入し、ベースライン生成能力を拡張する。
- メディア生成モデルの研究を加速するベンチマークと公開リソースを提供する。
提案手法
- 大規模な画像および動画データ上で、時空圧縮潜在空間(TAE)を用いたジョイント画像・動画ファウンデーションモデル(Movie Gen Video)を訓練する。
- 動画および画像生成の潜在空間で速度をモデル化するトレーニング目的として Flow Matching を使用する。
- 複数のテキストエンコーダからの条件付けを含む、全双方向注意機構とクロスアテンションを持つ 30B パラメータのトランスフォーマー・バックボーンを採用する。
- 動画から音声へおよびテキストから音声生成のための別個の 13B パラメータ Movie Gen Audio モデルを追加し、同期出力を実現する。
- 大規模な監視付き編集データセットを用いず、画像を条件とした個人化(ポストトレーニング)とテキスト案内の精密編集を実現する。
- 動的整合性のために動画対動画アップサンプリングと多重拡散技術を用いた時空的アップサンプリング(HD 1080p)を実装する。
実験結果
リサーチクエスチョン
- RQ1単一のファウンデーションモデル・フレームワークが、高品質な画像と同期した音声を共同生成できるか?
- RQ2大規模な監視付き編集データセットを使わずに、動画の個人化と正確な編集をどう実現するか?
- RQ3長い文脈の動画生成における Flow Matching と拡散ベースの訓練の利点は何か?
- RQ4テキストプロンプトや参照画像などの多模態条件付けが生成品質と一貫性に与える影響は?
- RQ5データ、計算、並列性など、30B パラメータの動画モデルを可能にするスケーラビリティと効率性戦略は何か?
主な発見
- Movie Gen Video 30B モデルは、同期音声付きの高品質な16秒のHD動画を16 FPSで生成できる。
- Movie Gen Audio 13B モデルは、効果音や音楽を含む動画音声生成で最先端の結果を達成する。
- ポストトレーニングによる個人化は、特定の人物を特徴づけた動画を作成しつつ同一性を保持する。
- ポストトレーニングによる正確な編集は、テキスト指示に導かれた実在動画または生成動画への対象編集を可能にする。
- 本手法は、テキストから動画生成および動画個人化・編集タスク、音声生成ベンチマークで最先端の性能を達成する。
- Movie Gen Video と Movie Gen Audio のベンチマークは公開され、将来の評価を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。