QUICK REVIEW

[論文レビュー] Generating Long Videos of Dynamic Scenes

Tim Brooks, Janne Hellsten|arXiv (Cornell University)|Jun 7, 2022

Advanced Vision and Imaging被引用数 25

ひとこと要約

時間軸を優先させ、時間の経過とともに現実的な動きと新しい内容を含む長編動画を生成する階層的ジェネレータを提案し、長い低解像度シーケンスと短い高解像度シーケンスの二段階訓練を用いる。

ABSTRACT

We present a video generation model that accurately reproduces object motion, changes in camera viewpoint, and new content that arises over time. Existing video generation methods often fail to produce new content as a function of time while maintaining consistencies expected in real environments, such as plausible dynamics and object persistence. A common failure case is for content to never change due to over-reliance on inductive biases to provide temporal consistency, such as a single latent code that dictates content for the entire video. On the other extreme, without long-term consistency, generated videos may morph unrealistically between different scenes. To address these limitations, we prioritize the time axis by redesigning the temporal latent representation and learning long-term consistency from data by training on longer videos. To this end, we leverage a two-phase training strategy, where we separately train using longer videos at a low resolution and shorter videos at a high resolution. To evaluate the capabilities of our model, we introduce two new benchmark datasets with explicit focus on long-term temporal dynamics.

研究の動機と目的

動画生成における長期的な一貫性と内容の出現の必要性を動機づける。
長期的な時間的ダイナミクスと高解像度の細部を分離してモデル化するジェネレータアーキテクチャを開発する。
計算資源を現実的に保ちながら長距離依存を学習するため、低解像度で長い動画の訓練を可能にする。
長期的な運動、視点変化、時間とともに新しい内容を強調するデータセットを導入する。
長時間動画の現実性とダイナミクスの評価ベンチマークと分析を提供する。

提案手法

低解像度の時間的ジェネレータと別個の超解像ネットワークを備えた二段階の階層的ジェネレータを導入する。
長距離のローパスフィルタ群で強化された時系列潜在表現を用いて長期ダイナミクスをモデル化する。
長いシーケンス（128フレーム）を64x36の解像度で使って低解像度ジェネレータを訓練し、長期的な一貫性を学習する。
低解像度フレームの短いシーケンスを用いて超解像ネットワークを訓練し、256x144（またはそれ以上）の出力を生成する。
低解像度ジェネレータと超解像ネットワークの間にモジュラーRGBボトルネックを設け、柔軟な実験を可能にする。
FVDと定性的評価を用いてStyleGAN-V、MoCoGAN-HD、TATS、DIGANと比較し、時間経過に伴う色変化ダイナミクスを分析する。

実験結果

リサーチクエスチョン

RQ1動画ジェネレータは時間とともに新しい内容を導入しつつ、長期的な時間的一貫性を学習・維持できるか？
RQ2長距離時系列潜在表現を介して時間軸を優先することは、フレームごとや短尺クリップ訓練と比較して長編動画の現実性を向上させるか？
RQ3長時間の動画生成に有効な訓練戦略（低解像度の長いシーケンス）とアーキテクチャ設計（時間的アップサンプリング、時空畳み込み）は何か？
RQ4長期ダイナミクスを備えた新たに提案されたデータセットは、動画生成モデルにどのような挑戦を課し、ベンチマークとしてどのように機能するか？
RQ5提案手法は長期指標（FVD）および定性的評価において、ベースラインと比べてどう機能するか？

主な発見

提案モデルは、時間とともに現実的な動き、カメラの視点変化、および新しい内容を含む動画を生成する。
低解像度で長い動画を訓練し、別個の超解像段階を用いることで、計算資源を現実的に保ちながら長期ダイナミクスをモデル化できる。
長期ダイナミクスを持つデータセットに対して、複数のベースラインと比較してFVDスコアが有利になり、定性的なユーザ調査も提案手法を支持している。
判別器の拡張と時間的ローパスで強化された潜在表現は、訓練の安定化と長距離の一貫性を有効にするために重要である。
アブレーション研究では、長い訓練シーケンスと適切な時間的ローパスの特徴が長編動画の現実性を高めることを示している。
新しいデータセット（mountain biking、horseback riding）—この翻訳は元の英語をそのまま表現すべきだが、日本語で自然に"mountain biking"と"horseback riding"は英語のまま残す。長期的な内容の出現とダイナミックなカメラ運動を示し、ベンチマークとして機能する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。