Skip to main content
QUICK REVIEW

[论文解读] Towards High Resolution Video Generation with Progressive Growing of Sliced Wasserstein GANs

U. Dinesh Acharya, Zhiwu Huang|arXiv (Cornell University)|Oct 4, 2018
Generative Adversarial Networks and Image Synthesis参考文献 2被引用 45
一句话总结

本工作通过逐步扩展渐进式生长的 GAN(Progressive Growing GANs)以实现高分辨率视频生成,方法是逐步添加时空层并使用切片 Wasserstein GAN 损失来稳定训练,在一个新的 256x256x32 面部动态视频数据集上进行了演示。

ABSTRACT

The extension of image generation to video generation turns out to be a very difficult task, since the temporal dimension of videos introduces an extra challenge during the generation process. Besides, due to the limitation of memory and training stability, the generation becomes increasingly challenging with the increase of the resolution/duration of videos. In this work, we exploit the idea of progressive growing of Generative Adversarial Networks (GANs) for higher resolution video generation. In particular, we begin to produce video samples of low-resolution and short-duration, and then progressively increase both resolution and duration alone (or jointly) by adding new spatiotemporal convolutional layers to the current networks. Starting from the learning on a very raw-level spatial appearance and temporal movement of the video distribution, the proposed progressive method learns spatiotemporal information incrementally to generate higher resolution videos. Furthermore, we introduce a sliced version of Wasserstein GAN (SWGAN) loss to improve the distribution learning on the video data of high-dimension and mixed-spatiotemporal distribution. SWGAN loss replaces the distance between joint distributions by that of one-dimensional marginal distributions, making the loss easier to compute. We evaluate the proposed model on our collected face video dataset of 10,900 videos to generate photorealistic face videos of 256x256x32 resolution. In addition, our model also reaches a record inception score of 14.57 in unsupervised action recognition dataset UCF-101.

研究动机与目标

  • 解决生成高分辨率视频时的不稳定性和内存挑战。
  • 提出一个渐进式生长框架,逐步提升视频分辨率和时长。
  • 引入切片 Wasserstein GAN(SWGAN)损失,以在高维视频数据上稳定分布学习。
  • 创建用于训练和评估的大型面部动态视频数据集(TrailerFaces,~10.9k 条片段)。
  • 在外观和动力学方面优于现有视频 GAN 的表现,包括在 Inception Score 和 FID 指标上的具竞争力表现。

提出的方法

  • 将 Progressive Growing of GANs 扩展到时空域以进行视频生成。
  • 通过新的层使用 3D 卷积和过渡阶段,逐步增加分辨率和时长。
  • 结合 Minibatch Standard Deviation 和 Pixel Normalization 以稳定训练。
  • 采用切片 Wasserstein GAN(SWGAN)损失,通过 1-D 投影近似 WD,以实现高维分布稳定学习。
  • 构建并使用一个 TrailerFaces 数据集,包含用于训练和评估的面部动态视频片段,共 10,910 条(或 10,900)片段。
  • 使用 Inception Score (IS) 和 Frechet Inception Distance (FID) 在 UCF-101 和 wild 数据集上进行评估。

实验结果

研究问题

  • RQ1能否有效将 GAN 的渐进生长扩展到生成更高分辨率和更长序列的视频?
  • RQ2切片 Wasserstein GAN 损失是否能提高高维视频生成的稳定性与质量?
  • RQ3哪些数据集和评估指标最能展示视频 GAN 在外观和动态方面的改进?
  • RQ4在标准数据集和 wild 数据集上,所提方法相对于现有视频 GAN(VideoGAN、Temporal GAN 等)的表现如何?

主要发现

  • 该方法能够生成达到 256x256x32 的视频,规模大于此前报道的 64x64x32。
  • 结合时空层的渐进生长策略在外观和动力学方面优于先前的方法。
  • SWGAN 损失促进在高维视频分布中的稳定学习,并与渐进框架整合。
  • 在 UCF-101 行为识别数据集(无监督)上获得创纪录的 Inception Score 14.57。
  • 在两个具有挑战性的 wild 数据集上获得比最先进方法更好的 FID 分数。
  • 引入了一个新的 TrailerFaces 数据集,包含 10,910 个面部动态视频片段,以支持高分辨率视频生成研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。