QUICK REVIEW

[论文解读] Generating Videos with Scene Dynamics

Carl Vondrick, Hamed Pirsiavash|arXiv (Cornell University)|Sep 8, 2016

Generative Adversarial Networks and Image Synthesis参考文献 34被引用 848

一句话总结

论文训练一个两流GAN从未标注视频中生成短小的64×64彩色视频（32帧），将前景运动与静态背景解耦，并展示了对动作识别有用的无监督表示。

ABSTRACT

We capitalize on large amounts of unlabeled video in order to learn a model of scene dynamics for both video recognition tasks (e.g. action classification) and video generation tasks (e.g. future prediction). We propose a generative adversarial network for video with a spatio-temporal convolutional architecture that untangles the scene's foreground from the background. Experiments suggest this model can generate tiny videos up to a second at full frame rate better than simple baselines, and we show its utility at predicting plausible futures of static images. Moreover, experiments and visualizations show the model internally learns useful features for recognizing actions with minimal supervision, suggesting scene dynamics are a promising signal for representation learning. We believe generative video models can impact many applications in video understanding and simulation.

研究动机与目标

充分利用大量未标注视频学习场景动态，以用于识别与生成任务。
开发一个能够从潜在编码生成合理短视频的生成性视频模型。
将前景运动与静态背景解耦，以更好地建模动态。
证明所学表示在有限监督下对动作分类的有用性。

提出的方法

提出一个用于视频的生成对抗网络（GAN），具备时空结构。
引入两种架构：一个单流生成器和一个双流生成器，通过时空掩码 m(z) 强制背景静态、前景运动。
使用3D卷积进行时序建模，使用分数步卷积进行上采样，以生成64×64分辨率、32帧的视频。
将判别器训练为一个5层的时空卷积神经网络，能够判断真实感与运动一致性。
对大量未标注视频进行预处理（200万段剪辑，>5千小时），稳定背景运动以突出对象动力学。
通过心理物理学研究（MTurk）评估生成视频的真实感，并通过下游的无监督表示学习进行动作识别评估。

实验结果

研究问题

RQ1未标注视频是否可用于学习稳健的场景动力学以用于生成和识别？
RQ2两流前背景/前景生成器是否比单流产生更真实的运动？
RQ3判别器学到的表示在有限标注数据下是否对动作识别有帮助？
RQ4模型是否能对静态图像或场景生成可信的未来？
RQ5相对于基线，生成视频的感知质量如何？

主要发现

	Golf	Beach	Train	Baby	Mean
Random Preference	50	50	50	50	50
Prefer VGAN Two Stream over Autoencoder	88	83	87	71	82
Prefer VGAN One Stream over Autoencoder	85	88	85	73	82
Prefer VGAN Two Stream over VGAN One Stream	55	58	47	52	53
Prefer VGAN Two Stream over Real	21	23	23	6	18
Prefer VGAN One Stream over Real	17	21	19	8	16
Prefer Autoencoder over Real	4	2	4	2	3

基于GAN的视频生成能够为场景类别（如海滩、高尔夫球场、火车站）产生可信的短时运动。
在人类评审中，绝大多数场景中，两流VGAN的生成优于单流和自编码器基线。
自编码器基线通常不及VGAN方法被偏好。
两流模型在处理大背景场景时更具鲁棒性，较单流模型减少背景闪烁。
在有限标注数据下对动作分类有帮助的无监督VGAN表示，与使用类似数据的随机初始化相当甚至超越，并优于某些手工设计的基线。
从单幅图像进行未来生成时可产生合理的运动轨迹，尽管具体内容常常不完全正确；网络学习了与运动相关的对象响应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。