Skip to main content
QUICK REVIEW

[论文解读] A Two-Stream Variational Adversarial Network for Video Generation.

Ximeng Sun, Huijuan Xu|arXiv (Cornell University)|Dec 3, 2018
Generative Adversarial Networks and Image Synthesis被引用 13
一句话总结

本文提出 TwoStreamVAN,一种两流变分对抗网络,通过使用带有自适应运动核的并行生成器,将视频合成中的内容与运动生成解耦。该方法在 Weizmann、MUG 和一个新构建的合成人体动作数据集上实现了最先进性能,通过跨尺度逐步融合特征,显著优于先前方法在真实感和运动质量方面的表现。

ABSTRACT

Video generation is an inherently challenging task, as it requires the model to generate realistic content and motion simultaneously. Existing methods generate both motion and content together using a single generator network, but this approach may fail on complex videos. In this paper, we propose a two-stream video generation model that separates content and motion generation into two parallel generators, called Two-Stream Variational Adversarial Network (TwoStreamVAN). Our model outputs a realistic video given an input action label by progressively generating and fusing motion and content features at multiple scales using adaptive motion kernels. In addition, to better evaluate video generation models, we design a new synthetic human action dataset to bridge the difficulty gap between over-complicated human action datasets and simple toy datasets. Our model significantly outperforms existing methods on the standard Weizmann Human Action and MUG Facial Expression datasets, as well as our new dataset.

研究动机与目标

  • 为解决在同时生成逼真视频与连贯运动方面的挑战。
  • 克服单生成器模型在复杂视频生成中表现受限的局限性。
  • 设计一个新的合成人体动作数据集,以弥合简单数据集与过度复杂数据集之间的差距。
  • 通过将内容与运动生成解耦为并行流,提升视频生成质量。
  • 利用自适应运动核,在多个尺度上实现运动与内容特征的渐进式融合。

提出的方法

  • 该模型采用两个并行生成器:一个用于内容,一个用于运动,通过变分对抗框架进行训练。
  • 利用自适应运动核,在多个尺度上逐步融合运动与内容特征,以增强时空一致性。
  • 架构采用条件变分自编码器(VAE)设置,以动作标签作为输入,引导视频生成。
  • 自适应运动核根据运动模式动态调整,以提升时间一致性。
  • 构建了一个新的合成人体动作数据集,以提供具有受控复杂度的基准。
  • 对抗训练框架包含用于内容和运动真实性的判别器。

实验结果

研究问题

  • RQ1解耦内容与运动生成是否能提升复杂场景下的视频合成质量?
  • RQ2自适应运动核在提升视频帧间时间一致性方面的有效性如何?
  • RQ3具有中等复杂度的新合成数据集是否能更有效地评估视频生成模型?
  • RQ4两流架构与单生成器方法在标准基准上的表现相比如何?
  • RQ5跨尺度的渐进式特征融合在多大程度上提升了视频的真实感与运动质量?

主要发现

  • TwoStreamVAN 在 Weizmann 人体动作数据集上实现了最先进性能,在视频真实感与运动连贯性方面优于现有方法。
  • 该模型在 MUG 情绪表情数据集上的生成质量显著提升,证明了其在面部运动复杂性下的鲁棒性。
  • 在新提出的合成人体动作数据集中,TwoStreamVAN 展现出对多样化运动模式的优越泛化能力与一致性。
  • 消融实验证实,两流设计与自适应运动核对性能提升至关重要。
  • 具有多尺度特征的渐进式融合机制,使输出视频更具真实感且时间上更稳定。
  • 该模型在定量指标与定性视频质量方面均超越了先前方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。