Skip to main content
QUICK REVIEW

[论文解读] Co-occurrence Feature Learning for Skeleton based Action Recognition using Regularized Deep LSTM Networks

Wentao Zhu, Cuiling Lan|arXiv (Cornell University)|Mar 24, 2016
Human Pose and Action Recognition参考文献 27被引用 289
一句话总结

本文提出一种端到端的深度 LSTM 模型用于骨架基动作识别,该模型通过专门的正则化学习关节共现,并对 LSTM 神经元应用深入的 dropout,在多个数据集上达到了最先进的结果。

ABSTRACT

Skeleton based action recognition distinguishes human actions using the trajectories of skeleton joints, which provide a very good representation for describing actions. Considering that recurrent neural networks (RNNs) with Long Short-Term Memory (LSTM) can learn feature representations and model long-term temporal dependencies automatically, we propose an end-to-end fully connected deep LSTM network for skeleton based action recognition. Inspired by the observation that the co-occurrences of the joints intrinsically characterize human actions, we take the skeleton as the input at each time slot and introduce a novel regularization scheme to learn the co-occurrence features of skeleton joints. To train the deep LSTM network effectively, we propose a new dropout algorithm which simultaneously operates on the gates, cells, and output responses of the LSTM neurons. Experimental results on three human action recognition datasets consistently demonstrate the effectiveness of the proposed model.

研究动机与目标

  • 从骨架关节轨迹中学习鲁棒且具辨别力的特征,用于动作识别。
  • 自动发现并利用跨动作的共现关节模式。
  • 利用新颖正则化和对 LSTM 神经元的深入 dropout 策略来缓解过拟合。
  • 在多个基于骨架的动作数据集上展示优越的性能。

提出的方法

  • 使用一个全连接的深度 LSTM 网络,包含三层双向 LSTM 和两层前馈层。
  • 引入共现正则化以学习关节特征交互,通过损失中的分组范数(L21)和 L1 稀疏性项实现。
  • 将共现正则化应用于进入第二层 LSTM 的连接,以捕获判别性关节组合。
  • 为 LSTM 单元开发深入的 dropout 机制,丢弃输入门、遗忘门、单元和输出响应,而不抹去时序记忆。
  • 用将极大似然与正则化项相结合的损失进行训练,并聚合双向 LSTM 的输出以得到最终的类别概率。

实验结果

研究问题

  • RQ1共现正则化是否能提升基于骨架的动作的判别特征学习?
  • RQ2对 LSTM 神经元进行深入 dropout 是否能提升对复杂时序动态的学习?
  • RQ3在标准骨架动作数据集上,提出的带正则化的深度 LSTM 与当前最先进的方法相比如何?

主要发现

  • 深度 LSTM 在三个公开数据集上优于基线方法。
  • 加入共现正则化可提升准确率(如 SBU Kinect:86.03% 提升至 89.44%)。
  • 深入 dropout 相对于简单 dropout 进一步提升(如 SBU Kinect:89.70% 提升至 90.10%)。
  • 共现正则化与深入 dropout 的结合实现最佳性能(如 SBU Kinect:90.41%)。
  • 在 HDM05、CMU 数据集和 Berkeley MHAD 上,所提出的模型始终达到最先进或优越的结果,作者指出 Berkeley MHAD 上的准确率达到 100%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。