Skip to main content
QUICK REVIEW

[论文解读] Lattice Long Short-Term Memory for Human Action Recognition

Lin Sun, Kui Jia|arXiv (Cornell University)|Aug 13, 2017
Human Pose and Action Recognition参考文献 36被引用 21
一句话总结

该论文提出 Lattice-LSTM ($\textrm{L}^\textrm{2}\textrm{STM}$),一种新型 LSTM 架构,通过学习空间可变的存储单元转移并联合训练输入门与遗忘门(利用 RGB 和光流模态),增强了视频动作识别中的长期运动建模能力。该方法在 UCF-101(93.6%)和 HMDB-51(66.2%)上实现了最先进性能,且模型复杂度仅略有增加。

ABSTRACT

Human actions captured in video sequences are three-dimensional signals characterizing visual appearance and motion dynamics. To learn action patterns, existing methods adopt Convolutional and/or Recurrent Neural Networks (CNNs and RNNs). CNN based methods are effective in learning spatial appearances, but are limited in modeling long-term motion dynamics. RNNs, especially Long Short-Term Memory (LSTM), are able to learn temporal motion dynamics. However, naively applying RNNs to video sequences in a convolutional manner implicitly assumes that motions in videos are stationary across different spatial locations. This assumption is valid for short-term motions but invalid when the duration of the motion is long. In this work, we propose Lattice-LSTM (L2STM), which extends LSTM by learning independent hidden state transitions of memory cells for individual spatial locations. This method effectively enhances the ability to model dynamics across time and addresses the non-stationary issue of long-term motion dynamics without significantly increasing the model complexity. Additionally, we introduce a novel multi-modal training procedure for training our network. Unlike traditional two-stream architectures which use RGB and optical flow information as input, our two-stream model leverages both modalities to jointly train both input gates and both forget gates in the network rather than treating the two streams as separate entities with no information about the other. We apply this end-to-end system to benchmark datasets (UCF-101 and HMDB-51) of human action recognition. Experiments show that on both datasets, our proposed method outperforms all existing ones that are based on LSTM and/or CNNs of similar model complexities.

研究动机与目标

  • 解决标准 LSTM 在建模视频中非平稳长期运动动态方面的局限性。
  • 在不显著增加模型复杂度的前提下,提升视频动作识别中的时间建模能力。
  • 通过双流架构中共享的控制门,实现 RGB 和光流模态的联合学习。
  • 开发一种采样策略,增强 RNN 学习视频动作识别中短时与长时动态的能力。
  • 在基于 LSTM 的架构上,于标准动作识别基准数据集上实现最先进性能。

提出的方法

  • 提出 Lattice-LSTM ($\\textrm{L}^\\textrm{2}\\textrm{STM}$),通过为每个空间位置学习独立的隐藏状态转移,扩展标准 LSTM,使存储单元内的叠加具有空间可变性。
  • 引入双流架构,共享并联合训练输入门与遗忘门,利用 RGB 和光流输入,实现多模态对信息流入存储单元的控制。
  • 采用一种新颖的长短时采样策略,从视频序列中随机采样片段,以增强时间数据并改善对多样化时间动态的学习。
  • 使用源自标准 LSTM 的循环关系,但进行修改以允许空间可变的存储单元更新,从而增强对复杂且非平稳运动模式的建模能力。
  • 在 UCF-101 和 HMDB-51 上进行端到端训练,将预训练 CNN 的特征图作为 Lattice-LSTM 网络的输入。
  • 引入局部叠加存储单元机制,使网络能够通过隐藏状态的空间可变组合捕捉复杂运动动态。

实验结果

研究问题

  • RQ1与标准 LSTM 和 ConvLSTM 相比,改进的 LSTM 架构是否能更好地建模视频中的非平稳长期运动动态?
  • RQ2通过联合使用 RGB 和光流输入训练输入门与遗忘门,是否能提升动作识别性能,相比独立处理各流?
  • RQ3一种结合长时与短时片段的新型采样策略,是否能增强 RNN 对视频动作识别中时间动态的学习能力?
  • RQ4空间可变的存储单元转移机制在多大程度上提升了对复杂运动模式的建模能力?
  • RQ5所提出的 Lattice-LSTM 架构是否在 UCF-101 和 HMDB-51 等标准基准上实现最先进性能,且模型复杂度相当?

主要发现

  • Lattice-LSTM 在 UCF-101 上达到 93.6% 的准确率,在 HMDB-51 上达到 66.2%,优于所有复杂度相近的现有 LSTM 与 CNN 方法。
  • 与标准 VideoLSTM 相比,引入局部叠加存储单元使 UCF-101 准确率提升 3.8%,HMDB-51 提升 4.5%。
  • 共享的多模态输入门与遗忘门训练使空间网络性能提升 1.0%,时间网络提升 0.5%,表明对空间建模更具优势。
  • 与标准采样相比,长短时采样策略使 UCF-101 准确率提升 0.8%,HMDB-51 提升 0.2%。
  • 即使未使用 1M Sports 预训练,Lattice-LSTM 仍优于依赖此类预训练的 VideoLSTM 和 TwoLSTM 等方法。
  • Lattice-LSTM 在所有 LSTM 类架构中实现最先进性能,并在与 TSN 和 ST-ResNet 等更复杂模型的对比中保持竞争力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。