[论文解读] Predicting Video with VQVAE
本论文提出一个两阶段方法,使用 VQ-VAE 将视频压缩为离散潜变量,基于 PixelCNN 的自回归模型预测未来帧,从而在诸如 Kinetics-600 的无限制数据上实现高分辨率视频预测。
In recent years, the task of video prediction-forecasting future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution videos into a hierarchical set of multi-scale discrete latent variables. Compared to pixels, this compressed latent space has dramatically reduced dimensionality, allowing us to apply scalable autoregressive generative models to predict video. In contrast to previous work that has largely emphasized highly constrained datasets, we focus on very diverse, large-scale datasets such as Kinetics-600. We predict video at a higher resolution on unconstrained videos, 256x256, than any other previous method to our knowledge. We further validate our approach against prior work via a crowdsourced human evaluation.
研究动机与目标
- 演示将 VQ-VAE 应用于将视频压缩为分层的离散潜在表示。
- 开发时空自回归先验(带注意力的 PixelCNN),在过去帧条件下预测未来潜在变量。
- 在高分辨率、广泛数据集上展示预测质量,适用于大规模、无约束的视频数据。
- 通过定量指标和人工评估,与现有视频预测方法进行对比。
提出的方法
- 将视频压缩为分层 VQ-VAE,得到顶层(高层)潜在变量和底层(低层)潜在变量,输入为 256x256x16,缩减为顶层 32x32x4 和底层 64x64x8 的格点,并将每个格点量化为 512 个码。
- 训练顶层先验:在顶层潜在层(32x32x4)上运行的因果、时间感知 PixelCNN,带多头自注意力。
- 训练底层先验:在一个以顶层潜潜在变量窗口和 past 底层潜在变量为条件的二维 PixelCNN,以生成更细节的信息(输入为 64x64x2)。
- 在从潜在变量中生成完整的 256x256x16 视频时,以粗到细的方式分解生成过程,利用潜在层次结构。
- 在 VQ-VAE 训练中使用掩码以防止码本塌缩,并促使顶层潜在层的利用。
- 使用 64x64 和 256x256 分辨率的 Fr échet Video Distance(FVD)进行评估,并辅以众包的人工判断。
实验结果
研究问题
- RQ1分层 VQ-VAE 能否将非受限视频压缩到大幅减少的潜在空间而不产生不可接受的质量损失?
- RQ2在离散潜在变量上操作的自回归先验是否能在高分辨率下有效建模未来视频帧?
- RQ3在大规模数据集如 Kinetics-600 上,VQ-VAE+PixelCNN 与现有视频预测方法在客观指标和人工评估上有何差异?
主要发现
| 方法 | FVD 分数(越低越好) |
|---|---|
| Video Transformer (64x64) | 170 ± 5 |
| DVD-GAN-FP (64x64) | 69.15 ± 1.16 |
| TRIVD-GAN-FP (64x64) | 25.74 ± 0.66 |
| Video VQ-VAE (64x64) | 64.30 ± 2.04 |
| Video VQ-VAE FVD* (64x64) | 54.30 ± 3.49 |
| Video VQ-VAE (256x256) | 129.85 ± 1.64 |
| Video VQ-VAE FVD* (256x256) | 82.45 ± 1.16 |
- VQ-VAE 将 256x256x16 视频压缩到一个比原始像素需要的比特数少超过 98% 的空间。
- 顶层和底层的 PixelCNN 先验对潜在空间进行建模,在过去帧的条件下生成未来帧。
- 在 Kinetics-600 上,VideoVQ-VAE 在量化指标上具备竞争力,且在人类评估方面优于先前方法。
- 定量结果显示,VideoVQ-VAE 的样本在人工偏好方面优于某些在其他场景中对 GAN 基方法更友好的度量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。