Skip to main content
QUICK REVIEW

[論文レビュー] Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks

Sihyun Yu, Jihoon Tack|arXiv (Cornell University)|Feb 21, 2022
Generative Adversarial Networks and Image Synthesis被引用数 27
ひとこと要約

DIGANは、時間的ダイナミクスを明示的にモデル化する INR ベースの GAN を導入し、運動の一貫性を向上させ、長く、自己回帰なし、スペース認識のあるビデオ合成を可能にする。

ABSTRACT

In the deep learning era, long video generation of high-quality still remains challenging due to the spatio-temporal complexity and continuity of videos. Existing prior works have attempted to model video distribution by representing videos as 3D grids of RGB values, which impedes the scale of generated videos and neglects continuous dynamics. In this paper, we found that the recent emerging paradigm of implicit neural representations (INRs) that encodes a continuous signal into a parameterized neural network effectively mitigates the issue. By utilizing INRs of video, we propose dynamics-aware implicit generative adversarial network (DIGAN), a novel generative adversarial network for video generation. Specifically, we introduce (a) an INR-based video generator that improves the motion dynamics by manipulating the space and time coordinates differently and (b) a motion discriminator that efficiently identifies the unnatural motions without observing the entire long frame sequences. We demonstrate the superiority of DIGAN under various datasets, along with multiple intriguing properties, e.g., long video synthesis, video extrapolation, and non-autoregressive video generation. For example, DIGAN improves the previous state-of-the-art FVD score on UCF-101 by 30.7% and can be trained on 128 frame videos of 128x128 resolution, 80 frames longer than the 48 frames of the previous state-of-the-art method.

研究の動機と目的

  • 連続信号としての INR で動画をモデル化することで、長く高品質な動画生成の課題に対処する。
  • 動画生成をコンテンツとモーションの成分に分解して、運動ダイナミクスを改善する。
  • フルシーケンスではなく、フレームのペアを使用する効率的なモーション識別器を導入する。
  • 長尺動画の合成、時間内挿/外挿、非自己回帰生成、空間内插/外挿などの能力を示す。

提案手法

  • 動画を連続的な座標-to-値写像としてエンコードするために、 implicit neural representations (INRs) を使用する。
  • 動画 INR 出力をコンテンツ(画像)とモーション成分に分解し、時間ダイナミクスをモーション経路に組み込む。
  • モーション経路を content z_I とモーション z_M に条件付けし、モーションの上に非線形マッピング f_M を追加し、時間的一致性を促進するために小さな時間周波数 sigma_t を使用する。
  • 長いシーケンスの重い 3D 識別器を避けるために、2D ConvNet を用いて三つ組 (i_t1, i_t2, Delta t) を分析するモーション識別器を訓練する。
  • INR を活用して任意の時刻でフレームを合成し、事前の全フレームを生成することなく非自己回帰的な動画生成を可能にする。
  • 長い動画、時間内挿/外挿、平行フレーム生成、共有初期フレームからの多様なモーション、空間アップサンプリング/外挿などの特性を示す。

実験結果

リサーチクエスチョン

  • RQ1INR ベースの GAN モデルは、動画生成の連続的な時空ダイナミクスを効果的に学習できるか。
  • RQ2INR ベースの生成器で空間と時間を分解することは、モーションの現実感と時間的一致性を改善するか。
  • RQ3長い動画シーケンスを処理せずに、2D 識別アーキテクチャはモーションダイナミクスを適切に監督できるか。
  • RQ4長尺動画生成、時間内挿/外挿、空間内挿/外挿における DIGAN の能力と限界は何か。

主な発見

  • DIGAN は従来の最先端手法よりも複数データセットで改善されており、UCF-101 における FVD が以前の最良 MoCoGAN-HD より 30.7% 減少している。
  • モデルは 128×128 解像度で 128 フレームの動画を訓練でき、以前の手法(例:48 フレームのベースライン)より著しく長い。
  • DIGAN は長い動画生成、時間内挿と外挿、非自己回帰生成、多様なモーションサンプル、空間内挿/外挿をサポートする。
  • フレームのペアとその時間差で動作するモーション識別器は、長いシーケンスを必要とせずにダイナミクスを効率的に捉える。
  • アブレーション研究は提案される各生成器コンポーネント(小さな sigma_t、モーションベクトル z_M、非線形マッピング f_M)が FVD の改善に寄与することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。