Skip to main content
QUICK REVIEW

[论文解读] Adversarial Video Generation on Complex Datasets

Aidan Clark, Jeff Donahue|arXiv (Cornell University)|Jul 15, 2019
Generative Adversarial Networks and Image Synthesis参考文献 69被引用 148
一句话总结

DVD-GAN 引入了一种可扩展的双判别器 GAN,用于在 Kinetics-600 上进行高保真视频生成,在视频合成与预测方面达到最先进的结果。

ABSTRACT

Generative models of natural images have progressed towards high fidelity samples by the strong leveraging of scale. We attempt to carry this success to the field of video modeling by showing that large Generative Adversarial Networks trained on the complex Kinetics-600 dataset are able to produce video samples of substantially higher complexity and fidelity than previous work. Our proposed model, Dual Video Discriminator GAN (DVD-GAN), scales to longer and higher resolution videos by leveraging a computationally efficient decomposition of its discriminator. We evaluate on the related tasks of video synthesis and video prediction, and achieve new state-of-the-art Fréchet Inception Distance for prediction for Kinetics-600, as well as state-of-the-art Inception Score for synthesis on the UCF-101 dataset, alongside establishing a strong baseline for synthesis on Kinetics-600.

研究动机与目标

  • 旨在利用大规模数据集将高保真图像生成的成功扩展到视频领域。
  • 开发可扩展的GAN架构,能够生成长时间且高分辨率的视频。
  • 为 Kinetics-600 上的类别条件视频合成建立强基线。
  • 在视频合成和视频预测上进行评估,以基准化时序动态和质量。

提出的方法

  • 在 BigGAN 的基础上为视频创建 Dual Video Discriminator GAN (DVD-GAN)。
  • 引入两个判别器:空间判别器(D_S)和时间判别器(D_T)。
  • 通过一个函数 phi 将输入下采样至 D_T,以在降低计算量的同时保留反馈。
  • 对 D_S 抽取 k 帧以判断每帧内容,并将它们的分数相加得到最终的 D_S 输出。
  • 判别器目标使用铰链损失,其中 D_S 和 D_T 提供学习信号而无需进行整段视频处理。
  • 在 TPU pods 上进行大规模分布式训练,以处理 256×256 以及高达 48 帧的视频。

实验结果

研究问题

  • RQ1可扩展的 GAN 架构是否能够在像 Kinetics-600 这样的多样化数据集上生成高保真、长距离的视频?
  • RQ2将判别分解为空间和时间分量是否能够保留在高分辨率下实现真实感所必需的反馈?
  • RQ3下采样和帧采样(k)对合成质量和多样性有何影响?
  • RQ4与先前方法相比,DVD-GAN 在类别条件视频合成和未来视频预测方面的表现如何?

主要发现

  • DVD-GAN 在 UCF-101 的视频合成上达到最先进的 Inception Score。
  • 在 Kinetics-600 上,DVD-GAN 在 64×64、128×128 和 256×256 的高保真样本,帧数达到 48 帧,展示了可扩展的性能。
  • 在 Kinetics-600 的合成方面,所报告的 FID 和 IS 与基线相比在多种分辨率和帧长度上均有所提升。
  • 在预测方面,DVD-GAN-FP 在 Kinetics-600 与 BAIR 数据集上取得了明显更低的 Fréchet Video Distance,相对于以往的对抗模型。
  • 双判别器设置在显著降低计算负担的同时,维持了对空间和时间上的真实感反馈信号。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。