[论文解读] FitVid: Overfitting in Pixel-Level Video Prediction
FitVid 表明一个卷积变分视频预测模型在标准基准上可能过拟合,参数量与前者模型相当,同时数据增强可以缓解过拟合,同时在多数据集和多指标上实现最先进的结果。
An agent that is capable of predicting what happens next can perform a variety of tasks through planning with no additional training. Furthermore, such an agent can internally represent the complex dynamics of the real-world and therefore can acquire a representation useful for a variety of visual perception tasks. This makes predicting the future frames of a video, conditioned on the observed past and potentially future actions, an interesting task which remains exceptionally challenging despite many recent advances. Existing video prediction models have shown promising results on simple narrow benchmarks but they generate low quality predictions on real-life datasets with more complicated dynamics or broader domain. There is a growing body of evidence that underfitting on the training data is one of the primary causes for the low quality predictions. In this paper, we argue that the inefficient use of parameters in the current video models is the main reason for underfitting. Therefore, we introduce a new architecture, named FitVid, which is capable of severe overfitting on the common benchmarks while having similar parameter count as the current state-of-the-art models. We analyze the consequences of overfitting, illustrating how it can produce unexpected outcomes such as generating high quality output by repeating the training data, and how it can be mitigated using existing image augmentation techniques. As a result, FitVid outperforms the current state-of-the-art models across four different video prediction benchmarks on four different metrics.
研究动机与目标
- 提高像素级视频预测对参数效率的需求,以解决当前模型的欠拟合。
- 介绍 FitVid 作为一种架构,能够在参数量与最先进模型相近的情况下实现显著的过拟合。
- 研究数据增强在防止过拟合和实现泛化中的作用。
- 证明增强在多个真实世界视频预测基准上实现了最先进的性能。
提出的方法
- 提出一个非层次化的卷积变分模型,固定高斯先验用于随机视频预测。
- 使用编码器-解码器架构,拥有残差块、批量归一化、Swish 激活和挤压与激励模块。
- 通过两层 LSTM 来建模帧转换,以及一个独立的基于 LSTM 的编码器用于潜在变量,通过摊销推断得到高斯后验。
- 通过最大化证据下界来训练,不使用课程学习或学习先验,使用 Adam 优化器。
- 应用 RandAugment 与 RandCrop 数据增强来缓解过拟合并提高泛化。
实验结果
研究问题
- RQ1一个参数高效的视频预测模型是否能够在不使用过于庞大架构或复杂训练计划的情况下,在现实世界数据集上实现高质量的未来帧预测?
- RQ2引入强数据增强是否会暴露现有基准中的过拟合倾向并改善泛化?
- RQ3在不同数据集上,增强在训练准确度与留出视频质量之间的差距上能在多大程度上起到桥梁作用?
主要发现
| 数据集 | GHVAE FVD | GHVAE PSNR | GHVAE SSIM | GHVAE LPIPS | SVG FVD | SVG PSNR | SVG SSIM | SVG LPIPS | FitVid FVD | FitVid PSNR | FitVid SSIM | FitVid LPIPS |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RobNet | 95.2 | 24.7 | 89.1 | 0.036 | 123.2 | 23.9 | 87.8 | 0.060 | 62.5 | 28.2 | 89.3 | 0.024 |
| KITTI | 552.9 | 15.8 | 51.2 | 0.286 | 1217.3 | 15.0 | 41.9 | 0.327 | 884.5 | 17.1 | 49.1 | 0.217 |
| Human3.6M | 355.2 | 26.7 | 94.6 | 0.018 | - | - | - | - | 154.7 | 36.2 | 97.9 | 0.012 |
- FitVid 在四个具有挑战性的视频预测基准上实现了四项指标的最先进结果。
- 在没有数据增强的情况下,FitVid 对 Human3.6M 和 KITTI(甚至在参数量更大的 RoboNet 上也)存在明显过拟合。
- RandAugment 加 RandCrop 能有效缓解过拟合并带来对留出视频的更好泛化。
- 与 SVG 和 GHVAE 相比,带增强的 FitVid 在 RoboNet 和 Human3.6M 上表现优于,对 KITTI 则接近或超过 GHVAE。
- 在 BAIR 上,FitVid 超过大多数先前的非变分方法,在考虑参数量时与 Video Transformer 相竞争。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。