[论文解读] VideoFlow: A Conditional Flow-Based Model for Stochastic Video Generation
VideoFlow 将基于流的生成模型扩展到条件视频预测,通过学习潜在动态并使用自回归先验,能够实现精确似然、多样的未来以及比像素级自回归方法更快的合成。
Generative models that can model and predict sequences of future events can, in principle, learn to capture complex real-world phenomena, such as physical interactions. However, a central challenge in video prediction is that the future is highly uncertain: a sequence of past observations of events can imply many possible futures. Although a number of recent works have studied probabilistic models that can represent uncertain futures, such models are either extremely expensive computationally as in the case of pixel-level autoregressive models, or do not directly optimize the likelihood of the data. To our knowledge, our work is the first to propose multi-frame video prediction with normalizing flows, which allows for direct optimization of the data likelihood, and produces high-quality stochastic predictions. We describe an approach for modeling the latent space dynamics, and demonstrate that flow-based generative models offer a viable and competitive approach to generative modelling of video.
研究动机与目标
- 将现实世界序列中的未来本质不确定性作为动机的随机视频预测。
- 提出一个直接优化数据似然的条件、基于流的视频模型。
- 在潜在空间建模时间动态,以捕捉多种可行的未来,同时保持每帧的流可逆性和可扩展性。
- 在标准基准上展示与最先进的基于 VAE 的方法相当或更优的性能。
- 突出通过精确似然在合成速度和评估方面的实际优势。
提出的方法
- 使用多尺度可逆流将每帧 x_t 映射到具有可处理的雅可比行列式的潜在 z_t。
- 将潜在空间分解为逐帧和多尺度分量 z_t = {z_t^(l)},l=1..L。
- 训练自回归潜在动力学先验 p(z) = ∏_t p(z_t | z_{<t}),按层级条件 p(z_t^(l) | z_{<t}^(l), z_t^(>l)) 建模为高斯分布,其均值/方差由深度神经网络预测。
- 使用带扩张和门控激活的三维残差网络预测 z_t^(l) 的均值和对数尺度。
- 利用可逆操作(ActNorm、耦合、SoftPermute、Squeeze)实现可处理的对数似然和快速并行采样。
- 使用 Fréchet Video Distance (FVD) 以及与人类对齐的度量进行评估,并在 BAIR 和随机运动数据集上与 SAVP-VAE、SV2P 和 SVG-LP 进行比较。
实验结果
研究问题
- RQ1一个以过去帧为条件的基于流的模型是否可以在直接对数似然优化的情况下捕获随机未来?
- RQ2自回归潜在先验是否能够在不依赖像素级自回归的情况下实现真实、多样的视频生成?
- RQ3与标准数据集上最先进的基于 VAE 的随机视频预测模型相比,VideoFlow 在基于似然的评估和感知质量方面的表现如何?
主要发现
| Experiment/Dataset | Model | Metric | Value |
|---|---|---|---|
| Stochastic Movement Dataset | VideoFlow | Fooling rate (2AFC MTurk) | 31.8% |
| Stochastic Movement Dataset | SAVP-VAE | Fooling rate (2AFC MTurk) | 16.4% |
| Stochastic Movement Dataset | SV2P | Fooling rate (2AFC MTurk) | 17.5% |
| BAIR action-free | VideoFlow | Bits-per-pixel | 1.87 |
| BAIR action-free | SAVP-VAE | Bits-per-pixel | ≤6.73 |
| BAIR action-free | SV2P | Bits-per-pixel | ≤6.78 |
| BAIR action-free | VideoFlow | FVD (T=0.8) | 95 ± 4 |
| BAIR action-free | VideoFlow | FVD (T=0.8) | 127 ± 3 |
| BAIR action-free | VideoFlow | FVD (T=0.8) | 131 ± 5 |
| BAIR action-free | VideoFlow | FVD (T=1.0) | 149 ± 6 |
| BAIR action-free | VideoFlow | FVD (T=1.0) | 221 ± 8 |
| BAIR action-free | VideoFlow | FVD (T=1.0) | 251 ± 7 |
| BAIR action-free | SAVP | FVD | - |
| BAIR action-free | SV2P | FVD | 263 |
- VideoFlow 在 BAIR 无动作数据集上实现了具有竞争力的随机视频预测结果,像素位比特为 1.87,超越了若干基于 VAE 的基线。
- 在人类评估(2AFC Mechanical Turk)中,VideoFlow 的欺骗率高于 SAVP-VAE 和 SV2P,表明未来轨迹更真实。
- 在随机运动数据集上,VideoFlow 的欺骗率为 31.8%,高于 SAVP-VAE(16.4%)和 SV2P(17.5%)。
- VideoFlow 启用比逐像素自回归视频模型更快的合成,在 NVIDIA P100 GPU 上生成 64x64 的 20 帧视频在 3.5 秒内完成。
- 该模型直接优化对数似然,避免了变分界或对抗训练的需要,同时在不常见的模糊伪影下生成清晰、多样的未来。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。