QUICK REVIEW

[论文解读] Video Synthesis from a Single Image and Motion Stroke

Qiyang Hu, Adrian Waelchli|arXiv (Cornell University)|Dec 5, 2018

Generative Adversarial Networks and Image Synthesis参考文献 20被引用 11

一句话总结

该论文提出了一种循环视频生成模型，能够从单张图像和一系列运动轨迹中合成长时间的视频序列，这些运动轨迹用于引导物体运动。通过将过去、当前和未来状态分离，并结合自编码与对抗性训练，该方法在MNIST、KTH和Human3.6M等多种数据集上生成了逼真且时序一致的动画。

ABSTRACT

We present a method to generate a video sequence given a single image. Because items in an image can be animated in arbitrarily many different ways, we introduce as control signal a sequence of motion strokes. Such control signal can be automatically transferred from other videos, e.g., via bounding box tracking. Each motion stroke provides the direction to the moving object in the input image and we aim to train a network to generate an animation following a sequence of such directions. To address this task we design a novel recurrent architecture, which can be trained easily and effectively thanks to an explicit separation of past, future and current states. As we demonstrate in the experiments, our proposed architecture is capable of generating an arbitrary number of frames from a single image and a sequence of motion strokes. Key components of our architecture are an autoencoding constraint to ensure consistency with the past and a generative adversarial scheme to ensure that images look realistic and are temporally smooth. We demonstrate the effectiveness of our approach on the MNIST, KTH, Human3.6M, Push and Weizmann datasets.

研究动机与目标

实现通过运动轨迹作为控制信号，从单张静态图像生成视频。
解决图像动画中多样化和任意运动可能性的挑战。
确保生成的视频序列具有时序一致性和视觉真实感。
设计一种训练友好的架构，明确分离过去、当前和未来状态。
在包括人类运动和物体动力学在内的多种数据集上展示泛化能力。

提出的方法

该方法采用一种新颖的循环架构，明确将网络隐藏状态划分为过去、当前和未来三部分，以提升训练和生成的稳定性。
运动轨迹被用作控制信号，通过其他视频中的边界框跟踪获得，以定义输入图像中物体的运动方向。
应用自编码约束，通过重建过去帧来保持与先前生成帧的视觉一致性。
使用生成对抗网络（GAN）损失以增强真实感，并确保生成视频帧的时序平滑性。
通过重建损失和对抗性目标端到端联合训练模型，以平衡保真度与多样性。
该架构支持从单张图像和运动轨迹序列生成任意数量的帧。

实验结果

研究问题

RQ1当由运动轨迹引导时，是否能够从单张图像生成长时间、逼真的视频序列？
RQ2具有显式状态分离的循环架构在视频生成中对建模长期时序依赖关系有多有效？
RQ3自编码与对抗性训练的结合在多大程度上提升了视觉质量和时序一致性？
RQ4该方法在具有不同运动模式和物体类型的数据集上是否具备良好的泛化能力？
RQ5从其他视频中提取的运动轨迹在控制新图像中的动画时，其迁移效果如何？

主要发现

所提出的方法成功地从单张图像和运动轨迹输入生成了长时间的视频序列，表现出强大的时序一致性。
对过去、当前和未来状态的显式分离，使得循环网络的训练更加稳定和高效。
自编码约束通过保留过去内容，显著提升了生成帧之间的视觉一致性。
对抗性训练方案增强了真实感与时序平滑性，生成了视觉上可信的动画。
该模型在多种数据集上表现出良好的泛化能力，包括MNIST（数字运动）、KTH（动作序列）、Human3.6M（人体运动）、Push（物体推搡）和Weizmann（人体动作）。
该方法在推理阶段无需真实视频监督即可实现高质量的视频合成，仅依赖运动轨迹控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。