[论文解读] Deep Predictive Coding Networks for Video Prediction and Unsupervised Learning
PredNet 是一个受预测编码启发的深度循环卷积神经网络,能够在无监督的方式下预测未来的视频帧,并开发出有助于解码潜在对象参数以及下游任务(如转向角度估计)的表示。
While great strides have been made in using deep learning algorithms to solve supervised learning tasks, the problem of unsupervised learning - leveraging unlabeled examples to learn about the structure of a domain - remains a difficult unsolved challenge. Here, we explore prediction of future frames in a video sequence as an unsupervised learning rule for learning about the structure of the visual world. We describe a predictive neural network ("PredNet") architecture that is inspired by the concept of "predictive coding" from the neuroscience literature. These networks learn to predict future frames in a video sequence, with each layer in the network making local predictions and only forwarding deviations from those predictions to subsequent network layers. We show that these networks are able to robustly learn to predict the movement of synthetic (rendered) objects, and that in doing so, the networks learn internal representations that are useful for decoding latent object parameters (e.g. pose) that support object recognition with fewer training views. We also show that these networks can scale to complex natural image streams (car-mounted camera videos), capturing key aspects of both egocentric movement and the movement of objects in the visual scene, and the representation learned in this setting is useful for estimating the steering angle. Altogether, these results suggest that prediction represents a powerful framework for unsupervised learning, allowing for implicit learning of object and scene structure.
研究动机与目标
- 通过预测未来帧来激励从未标注的视频中进行无监督学习。
- 开发一个具有局部预测和基于误差的通信的预测编码启发式架构(PredNet)。
- 证明预测学习的表示有助于解码潜在因子(如姿态)并提升下游任务。
- 展示对自然视频序列的可扩展性(装车摄像头)以及对估计转向角的实用性。
提出的方法
- 提出 PredNet:一个分层的、带四个组成部分的递归卷积网络,每层包含输入 A_l、表示 R_l、预测 ĤA_l 和误差 E_l。
- 对 R_l 使用 ConvLSTM 单元,并通过在时间上最小化分层预测误差的加权和来学习(L_train)。
- 自下而上计算 A_l(A_0 = x_t;l>0 时通过 MaxPool(ReLU(Conv(E_{l-1}))) 获得 A_l);通过 Conv 与 ReLU 将 R_l 映射为 ĤA_l;E_l 作为正/负预测误差的拼接(ReLU(A_l - ĤA_l) 与 ReLU(ĤA_l - A_l))。
- 使用 Adam 进行训练;探索两种损失设置:PredNet_L0(仅在最低层加权损失)和 PredNet_Lall(在最低层和上层加权,权重较小)。
- 两遍更新方案:先进行自上而下的 R_l 状态通过 ConvLSTM,然后进行前向传播以计算预测、误差和更高层目标。
实验结果
研究问题
- RQ1预测编码启发的网络能否通过预测未来帧从视频中学习出有用的无监督表示?
- RQ2PredNet 表示是否有助于解码潜在对象参数(如姿态、身份)并改善下游任务(如静态对象识别)?
- RQ3PredNet 模型是否能扩展到自然场景视频(汽车摄像头)并捕捉自我运动与对象运动,从而实现有用的任务(如转向角估计)?
主要发现
| 模型 | MSE | SSIM |
|---|---|---|
| PredNet L0 (Rotating Faces) | 0.0152 | 0.937 |
| PredNet L_all (Rotating Faces) | 0.0157 | 0.921 |
| CNN-LSTM Enc.-Dec (Rotating Faces) | 0.0180 | 0.907 |
| Copy Last Frame (Rotating Faces) | 0.125 | 0.631 |
| PredNet L0 (CalTech) | 3.13e-3 | 0.884 |
| PredNet L_all (CalTech) | 3.33e-3 | 0.875 |
| CNN-LSTM Enc.-Dec (CalTech) | 3.67e-3 | 0.865 |
| Copy Last Frame (CalTech) | 7.95e-3 | 0.762 |
- PredNet 在旋转脸部的合成序列上在 MSE 与 SSIM 上均优于基线(旋转脸部:L0 MSE 0.0152,SSIM 0.937;Lall MSE 0.0157,SSIM 0.921;CNN-LSTM Enc.-Dec:MSE 0.0180,SSIM 0.907)。
- 在 CalTech Pedestrian 数据上,PredNet/L0 的 MSE 为 3.13e-3,SSIM 为 0.884;PredNet/Lall 的 MSE 为 3.33e-3,SSIM 为 0.875;CNN-LSTM Enc.-Dec 的 MSE 为 3.67e-3,SSIM 为 0.865;Copy Last Frame 表现最差(MSE 7.95e-3,SSIM 0.762)。
- 潜在参数解码:来自 R_l 的表示相对于随机网络在线性解码潜在因子(平移/滚转速度、平移角、PC1)方面表现更好;Lall 尤其提升了第一 PC 的解码。
- 使用线性 SVM 的静态面部分类显示 PredNet 表示在训练集规模不同的情况下通常优于自编码器和 Ladder Network 等变体,且 Lall 往往比 L0 给出更高的准确率。
- 在 Comma.ai 数据上的转向角估计:使用 1k 个带标签的样本,PredNet_L0 的线性回归对转向角方差解释度达到 74%,比 CNN-LSTM Enc.-Dec 高出约 35%;在 25k 标签下,PredNet_L0 的 MSE 约为 2.14(deg^2)。
- PredNet 展示了在自然场景(KITTI)中的稳健帧预测能力,并对 CalTech Pedestrian 的测试序列有合理的泛化;预测的帧可以填补遮挡区域并处理相机运动。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。