QUICK REVIEW

[论文解读] Video Imagination from a Single Image with Transformation Generation

Baoyang Chen, Wenmin Wang|arXiv (Cornell University)|Jun 13, 2017

Advanced Image Processing Techniques参考文献 32被引用 26

一句话总结

该论文提出了一种端到端、无监督的框架，通过在潜在空间中建模时间运动变换，从单张静态图像生成多样且高质量的虚构视频。该方法使用体素融合网络进行对抗性训练，以从变换后的输入图像重建帧，在合成和自然视频数据集上实现了最先进的感知质量和多样性。

ABSTRACT

In this work, we focus on a challenging task: synthesizing multiple imaginary videos given a single image. Major problems come from high dimensionality of pixel space and the ambiguity of potential motions. To overcome those problems, we propose a new framework that produce imaginary videos by transformation generation. The generated transformations are applied to the original image in a novel volumetric merge network to reconstruct frames in imaginary video. Through sampling different latent variables, our method can output different imaginary video samples. The framework is trained in an adversarial way with unsupervised learning. For evaluation, we propose a new assessment metric $RIQA$. In experiments, we test on 3 datasets varying from synthetic data to natural scene. Our framework achieves promising performance in image quality assessment. The visual inspection indicates that it can successfully generate diverse five-frame videos in acceptable perceptual quality.

研究动机与目标

为解决从单张静态图像生成多样且合理的虚构视频的挑战，由于固有的运动模糊性，不存在真实标签。
通过建模变换而非直接建模像素，克服视频生成中高维像素空间与时间依赖性问题。
开发一种完全无监督、端到端的训练框架，无需标注运动数据或多帧输入。
引入一种新型评估指标 RIQA，以在不依赖场景或分辨率差异的情况下公平评估视频重建质量。
在包括具有复杂运动的合成与自然场景在内的多样化数据集上，证明该框架的鲁棒性与优越性。

提出的方法

该框架基于单张输入图像和潜在变量生成一系列变换，通过在变换空间而非像素空间中建模运动。
变换通过体素融合网络应用于原始图像，该网络使用变换后的图像特征与学习到的体素核来重建每一帧。
采用对抗性训练，判别网络评估空间与时间一致性，以指导生成逼真的视频。
潜在变量实现多样化采样，从同一张输入图像生成多个不同的虚构视频序列。
该方法使用仿射或卷积变换，由 K 和 P 参数化，其中 P 是用于重建单帧的变换序列长度。
提出一种新型评估指标 RIQA（相对图像质量评估），通过 BRISQUE 计算输入到输出的相对质量下降，对场景与分辨率差异进行归一化。

实验结果

研究问题

RQ1在无真实标签监督的情况下，潜在空间中的变换生成是否能有效建模来自单张图像的多样且合理的视频运动？
RQ2与直接在像素空间中生成相比，在变换空间中建模运动在图像质量与时间一致性方面表现如何？
RQ3结合时空判别器的对抗性训练在多大程度上提升了生成视频的感知质量？
RQ4该框架对变换类型、序列长度（P）和参数量（K）的变化具有多强的鲁棒性？
RQ5当缺乏真实标签时，像 RIQA 这类与场景无关的新型指标能否公平评估视频想象质量？

主要发现

在 UCF101 数据集上，采用仿射变换、K=6 和 P=5 时，该框架取得了 2.03% 的最佳 RIQA 得分，优于基线方法及使用更多先验信息的方法。
定性结果表明，该框架生成的视频清晰、多样且感知上合理，具有如挥动或跳跃等逼真的运动动态，即使运动方向与真实视频不同亦然。
在定量与定性评估中，该框架均优于基于光流（Brox et al., 2004）与基于像素重建（Mathieu et al., 2015）的基线方法。
使用四帧输入的变换模型（van Amersfoort et al., 2017）生成的图像比本研究的单图像方法更模糊，表明本方法架构具有优势。
该框架对超参数选择具有鲁棒性：当 P=5 时，仿射变换表现最佳（RIQA 为 2.03%）；而 P 更大或使用更复杂的卷积变换则导致质量下降（如 P=10 时为 4.79%）。
失败案例包括仿射模型中的黑色像素伪影（由变换后产生的空区域引起）以及卷积模型中低分辨率的物体部分，表明体素融合网络设计仍有改进空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。