QUICK REVIEW

[论文解读] PredRNN++: Towards A Resolution of the Deep-in-Time Dilemma in Spatiotemporal Predictive Learning

Yunbo Wang, Zhifeng Gao|arXiv (Cornell University)|Apr 17, 2018

Machine Learning and Data Classification被引用 315

一句话总结

PredRNN++ 引入了一种级联因果 LSTM，具备双记忆和 Gradient Highway Unit，以实现更深时序的时空建模并缓解梯度消失，在合成数据集和真实数据集上实现最先进的视频预测。

ABSTRACT

We present PredRNN++, an improved recurrent network for video predictive learning. In pursuit of a greater spatiotemporal modeling capability, our approach increases the transition depth between adjacent states by leveraging a novel recurrent unit, which is named Causal LSTM for re-organizing the spatial and temporal memories in a cascaded mechanism. However, there is still a dilemma in video predictive learning: increasingly deep-in-time models have been designed for capturing complex variations, while introducing more difficulties in the gradient back-propagation. To alleviate this undesirable effect, we propose a Gradient Highway architecture, which provides alternative shorter routes for gradient flows from outputs back to long-range inputs. This architecture works seamlessly with causal LSTMs, enabling PredRNN++ to capture short-term and long-term dependencies adaptively. We assess our model on both synthetic and real video datasets, showing its ability to ease the vanishing gradient problem and yield state-of-the-art prediction results even in a difficult objects occlusion scenario.

研究动机与目标

在时空预测学习中推动对短时视频动态的更深层次时序建模。
提出级联双记忆机制（因果 LSTM），将跨一个时间步的递归深度提升。
通过 Gradient Highway Unit（GHU）解决深层递归结构中的梯度消失问题。
证明将因果 LSTM 与 GHU 结合能够自适应地捕捉短期和长期依赖关系。
在合成和真实视频数据集上进行评估，以展示最先进的性能。

提出的方法

引入带有级联双记忆（时间记忆 C_t^k 和空间记忆 M_t^k）的因果 LSTM，以增加时间步之间的递归深度。
通过级联门连接记忆以创建更深的转移路径，且为每个预测帧提供更大的感受野。
提出 Gradient Highway Unit（GHU），为梯度从输出回流到远端输入提供捷径，受 Switch Gate S_t 控制。
堆叠 L 个因果 LSTM，并在第一层与第二层之间插入一个 GHU，以平衡长期与短期信息流。
采用 5 层架构：4 个通道大小为 128、64、64、64 的因果 LSTM，以及一个 128 通道的 GHU；使用 5x5 卷积。

实验结果

研究问题

RQ1更深时序的递归结构是否能在不产生梯度消失的情况下改进短期视频动态建模？
RQ2级联双记忆（因果 LSTM）结构是否比之前的 ST-LSTM 或深度转换 RNN 更好地捕捉时空依赖？
RQ3GHU 是否能提供有效的长程梯度传播，以支持从远距离帧学习？
RQ4与之前的最先进模型相比，PredRNN++ 在合成的遮挡较多数据和真实动作视频上的表现如何？
RQ5在网络中将 GHU 放置在不同位置会产生怎样的影响？

主要发现

在 Moving MNIST 变体数据上，具备因果 LSTM 和 GHU 的 PredRNN++ 达到最先进的结果，优于包括 PredRNN 和 ST-LSTM 变体在内的若干基线。
一个级联的、从空间到时间的因果 LSTM 变体相较于原始 ST-LSTM 提高了 SSIM 且降低了 MSE。
GHU 在各模型中持续提升性能，放置在底部两层 LSTM 之间时获得最佳增益。
梯度分析显示 PredRNN++ 在跨时保持更强、更有信息含量的梯度，缓解了长距离预测中的梯度消失问题。
在 KTH 行动数据上，PredRNN++ 获得最高的 PSNR 和 SSIM，表明对长期依赖建模的改进以及更少的模糊。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。