QUICK REVIEW

[論文レビュー] An End-to-End Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data

Sijie Song, Cuiling Lan|arXiv (Cornell University)|Nov 18, 2016

Human Pose and Action Recognition参考文献 31被引用数 481

ひとこと要約

要約: 本論文は、空間的ジョイント注意と時間的フレーム注意を用いたエンドツーエンドのLSTMベースのアーキテクチャを Skeleton-based アクション認識に適用し、正則化損失とジョイント学習戦略で訓練し、SBUおよびNTUデータセットで最先端の結果を達成する。

ABSTRACT

Human action recognition is an important task in computer vision. Extracting discriminative spatial and temporal features to model the spatial and temporal evolutions of different actions plays a key role in accomplishing this task. In this work, we propose an end-to-end spatial and temporal attention model for human action recognition from skeleton data. We build our model on top of the Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM), which learns to selectively focus on discriminative joints of skeleton within each frame of the inputs and pays different levels of attention to the outputs of different frames. Furthermore, to ensure effective training of the network, we propose a regularized cross-entropy loss to drive the model learning process and develop a joint training strategy accordingly. Experimental results demonstrate the effectiveness of the proposed model,both on the small human action recognition data set of SBU and the currently largest NTU dataset.

研究の動機と目的

Skeletonデータからの堅牢なアクション認識を、空間的ジョイントの関連性と時間的フレームの重要性の両方をモデル化することによって動機づける。
フレーム内の識別可能なジョイントと時間を通じて重要なフレームを重み付けるよう学習するエンドツーエンドのアーキテクチャを開発する。
正則化損失項とジョイント学習戦略を導入し、結合した注意機構を持つネットワークの学習を安定化させる。
SBU Kinect InteractionおよびNTU RGB+Dを含む公開スケルトンデータセットでの有効性を示す。

提案手法

各フレーム内のジョイントを重み付けるジョイント選択ゲートを計算する空間注意モジュールを備えたLSTMベースのネットワークを提案する。
最終的な系列分類へのフレーム寄与を重み付けるフレーム選択ゲートを割り当てる時間的注意モジュールを実装する。
空間的および時間的注意正則化とウェイトスパース性項を組み込んだ正則化クロスエントロピー損失を定式化する。
注意機能を有するネットワーク全体の微調整の前に空間/時間注意部品を事前訓練する2段階のジョイント学習手順を採用する。
メインネットワークには3つのLSTM層、各注意サブネットワークには100ユニットのLSTM層を1層ずつ使用する。
CSおよびCV設定のSBU Kinect InteractionとNTU RGB+Dデータセットで評価する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの時空間注意は、注意を用いないベースラインと比較して Skeleton-based アクション認識を改善できるか？
RQ2空間的ジョイント注意と時間的フレーム注意は併用時に補完的な改善をもたらすか？
RQ3正則化項と提案されたジョイント学習戦略は学習の安定性と性能にどのように影響するか？
RQ4提案手法 STA-LSTM はSBUおよびNTUデータセットのこれまでの最先端手法と比較してどうか？

主な発見

手法	精度（％）
生のスケルトン ( ?)	49.7
関節特徴 ( ?)	80.3
生のスケルトン ( ?)	79.4
関節特徴 ( ?)	86.9
階層的 RNN ( ?)	80.35
共起 RNN ( ?)	90.41
STA-LSTM	91.51

空間注意と時間注意は、それぞれベースラインのLSTMより精度を改善しており、SBU/NTUで最大約5.1%および6.4%の改善を示す。
空間注意と時間注意の両方を組み合わせる STA-LSTM は、データセット全体で最良の結果を示す。
正則化項は空間および時間注意モジュールの性能を改善し、ジョイント学習戦略は収束を高める。
STA-LSTM は NTU（CSおよびCV）で従来手法より大きな精度向上を達成し、SBUでは競争力のある結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。