Skip to main content
QUICK REVIEW

[論文レビュー] Co-occurrence Feature Learning for Skeleton based Action Recognition using Regularized Deep LSTM Networks

Wentao Zhu, Cuiling Lan|arXiv (Cornell University)|Mar 24, 2016
Human Pose and Action Recognition参考文献 27被引用数 289
ひとこと要約

この論文は、関節共発生を学習する特化正則化を備えたエンドツーエンドの深い LSTM モデルを骨格ベースのアクション認識に提案し、LSTMニューロンに対して深いドロップアウトを適用して、複数のデータセットで最先端の結果を達成します。

ABSTRACT

Skeleton based action recognition distinguishes human actions using the trajectories of skeleton joints, which provide a very good representation for describing actions. Considering that recurrent neural networks (RNNs) with Long Short-Term Memory (LSTM) can learn feature representations and model long-term temporal dependencies automatically, we propose an end-to-end fully connected deep LSTM network for skeleton based action recognition. Inspired by the observation that the co-occurrences of the joints intrinsically characterize human actions, we take the skeleton as the input at each time slot and introduce a novel regularization scheme to learn the co-occurrence features of skeleton joints. To train the deep LSTM network effectively, we propose a new dropout algorithm which simultaneously operates on the gates, cells, and output responses of the LSTM neurons. Experimental results on three human action recognition datasets consistently demonstrate the effectiveness of the proposed model.

研究の動機と目的

  • 骨格関節の軌跡から行動認識のための頑健で識別的な特徴を学習する。
  • アクション間で共起する関節パターンを自動的に発見し、活用する。
  • 新規の正則化と LSTM ニューロン向けの深層ドロップアウト戦略で過学習を緩和する。
  • 複数の骨格ベースのアクションデータセットで優れた性能を示す。

提案手法

  • 3つの双方向 LSTM 層と2つのフィードフォワード層を備えた完全連結深層 LSTM ネットワークを使用する。
  • loss にグループワイズ(L21)ノルムとL1 スパース性の項を用いて、関節特徴の相互作用を学習するための共起正則化を導入する。
  • 第2の LSTM 層に入力される結合に共起正則化を適用して、識別的な関節結合を捕捉する。
  • 入力ゲート・忘却ゲート・セル・出力応答をドロップするが、時間的記憶を失わせない深いドロップアウト機構を LSTM ユニットに適用する。
  • 最大尤度と正則化項を組み合わせた損失で訓練し、双方向 LSTM の出力を統合して最終クラス確率を得る。

実験結果

リサーチクエスチョン

  • RQ1共起正則化は骨格ベースのアクションの識別的特徴学習を改善するか?
  • RQ2LSTM ニューロンにおける深いドロップアウトは複雑な時間的ダイナミクスの学習を高めるか?
  • RQ3提案された正則化を備えた Deep LSTM は、標準的な骨格ベースのアクションデータセットにおける最先端手法とどう比較されるか?

主な発見

  • Deep LSTM は3つの公開データセットでベースライン手法を上回る。
  • 共起正則化の追加により精度が向上(例: SBU Kinect: 86.03% から 89.44%)。
  • 深いドロップアウトは単純なドロップアウトよりさらなる改善をもたらす(例: SBU Kinect: 89.70% から 90.10%)。
  • 共起正則化と深いドロップアウトの併用により最高性能を達成(例: SBU Kinect: 90.41%)。
  • HDM05、CMU データセットおよび Berkeley MHAD で提案モデルは一貫して最先端または優れた結果を示し、著者は Berkeley MHAD で100%の精度を記録したと述べている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。