QUICK REVIEW

[論文レビュー] Adversarial Video Generation on Complex Datasets

Aidan Clark, Jeff Donahue|arXiv (Cornell University)|Jul 15, 2019

Generative Adversarial Networks and Image Synthesis参考文献 69被引用数 148

ひとこと要約

DVD-GAN は Kinetics-600 で高忠実度の動画生成のためのスケーラブルなデュアル識別器 GAN を導入し、動画の合成と予測において最先端の結果を達成します。

ABSTRACT

Generative models of natural images have progressed towards high fidelity samples by the strong leveraging of scale. We attempt to carry this success to the field of video modeling by showing that large Generative Adversarial Networks trained on the complex Kinetics-600 dataset are able to produce video samples of substantially higher complexity and fidelity than previous work. Our proposed model, Dual Video Discriminator GAN (DVD-GAN), scales to longer and higher resolution videos by leveraging a computationally efficient decomposition of its discriminator. We evaluate on the related tasks of video synthesis and video prediction, and achieve new state-of-the-art Fréchet Inception Distance for prediction for Kinetics-600, as well as state-of-the-art Inception Score for synthesis on the UCF-101 dataset, alongside establishing a strong baseline for synthesis on Kinetics-600.

研究の動機と目的

大規模データセットを用いて、ハイファイドな画像生成の成功を動画ドメインに拡張することを目指す。
長尺・高解像度の動画を生成できるスケーラブルな GAN アーキテクチャを開発する。
Kinetics-600 でのクラス条件付き動画合成の強力なベースラインを確立する。
動画合成と動画予測の両方を評価して時間的ダイナミクスと品質をベンチマークする。

提案手法

BigGAN を基盤として、動画用の Dual Video Discriminator GAN (DVD-GAN) を作成する。
二つの識別器を導入する：Spatial Discriminator (D_S) と Temporal Discriminator (D_T)。
計算量を削減しつつフィードバックを維持するため、入力を D_T にダウンサンプリングする関数 phi を用いる。
D_S に対して k フレームをサンプルしてフレームごとの内容を判断し、それらのスコアを合計して最終的な D_S の出力とする。
判別器の目的はヒンジ損失を用い、D_S と D_T が学習信号を供給する一方で、全動画処理を行わない。
256×256 から最大 48 フレームの動画を扱う大規模分散トレーニングを TPU ポッドで行う。

実験結果

リサーチクエスチョン

RQ1Kinetics-600 のような多様なデータセットで、スケーラブルな GAN アーキテクチャが高忠実かつ長距離の動画を生成できるか？
RQ2空間と時間の成分に分解した識別が、高解像度でのリアリズムに必要なフィードバックを保持するか？
RQ3ダウンサンプリングとフレームサンプリング（k）の合成品質と多様性への影響は？
RQ4従来手法と比較して、クラス条件付き動画合成および将来の動画予測における DVD-GAN の性能はどうか？

主な発見

Frames/Resolution	FID (No Truncation)	IS (No Truncation)	FID (With Truncation)	IS (With Truncation)
12/64×64	0.85	53.81	7.13	187.23
12/128×128	1.16	77.45	13.04	246.18
12/256×256	2.05	62.78	10.17	162.44
48/64×64	13.75	104.09	47.86	264.12
48/128×128	28.44	81.41	45.79	188.32

DVD-GAN は動画合成において UCF-101 で最先端の Inception Score を達成。
Kinetics-600 では、64×64、128×128、256×256 の高忠実度サンプルを最大 48 フレームで達成し、スケーラブルな性能を示している。
Kinetics-600 での合成について、複数の解像度とフレーム長にわたり FID および IS がベースラインを上回っている。
予測では、DVD-GAN-FP が Kinetics-600 および BAIR データセットにおいて従来の敵対的モデルより著しく低い Fréchet Video Distance を達成。
デュアル識別器構成は、空間と時間の両方でリアリズムの強いフィードバック信号を維持しつつ、計算負荷を大幅に低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。