Skip to main content
QUICK REVIEW

[論文レビュー] View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition from Skeleton Data

Pengfei Zhang, Cuiling Lan|arXiv (Cornell University)|Mar 24, 2017
Human Pose and Action Recognition参考文献 39被引用数 56
ひとこと要約

視点適応型LSTMフレームワークを導入し、骨格ベースのアクション認識の観測視点を自動で回帰する。NTU、SBU、SYSUデータセットで最先端の結果を達成。

ABSTRACT

Skeleton-based human action recognition has recently attracted increasing attention due to the popularity of 3D skeleton data. One main challenge lies in the large view variations in captured human actions. We propose a novel view adaptation scheme to automatically regulate observation viewpoints during the occurrence of an action. Rather than re-positioning the skeletons based on a human defined prior criterion, we design a view adaptive recurrent neural network (RNN) with LSTM architecture, which enables the network itself to adapt to the most suitable observation viewpoints from end to end. Extensive experiment analyses show that the proposed view adaptive RNN model strives to (1) transform the skeletons of various views to much more consistent viewpoints and (2) maintain the continuity of the action rather than transforming every frame to the same position with the same body orientation. Our model achieves significant improvement over the state-of-the-art approaches on three benchmark datasets.

研究の動機と目的

  • 大きな視点変動下での3Dスケルトンデータからの堅牢なアクション認識を動機づける。
  • フレームごとに観測視点を回帰する視点適応機構を開発する。
  • 視点適応モジュールをメインのLSTMネットワークと統合し、エンドツーエンドで学習可能なシステムを構築する。
  • 複数データセットに渡って従来の最先端手法より認識性能の改善を示す。

提案手法

  • 各フレームの回転(alpha、beta、gamma)と平行移動(d)を予測して新しい観測座標系を形成するビュー適応サブネットワークを提案する。
  • 適応視点下で各フレームの関節を剛体変換(R_t および d_t)を用いて表現する。
  • フレーム入力から回転と平行移動パラメータを学習するために別々のLSTMブランチを用いる。
  • 適応済みのスケルトンをメインLSTMネットワーク(3層のLSTMを積み重ねた構成)に入力して時系列特徴抽出と分類を行う。
  • エンドツーエンドでクロスエントロピー損失を用いて全体を学習し、Main LSTM から View Adaptation Subnetwork へ勾配を伝播させる。)

実験結果

リサーチクエスチョン

  • RQ1学習可能なフレームごとの視点適応は、骨格ベースのアクション認識における視点変化へのロバスト性を向上させることができるか?
  • RQ2視点規制とアクション分類を共同で学習することが認識精度に与える影響は何か?
  • RQ3VA-LSTMは、ベンチマークデータセット全体で従来の前処理ベースの視点正規化手法と比較してどうか?
  • RQ4視点を揃えつつ、モーションの連続性を保持するか?

主な発見

データセット設定/プロトコル手法精度(%)
NTUCross-Subject (CS)VA-LSTM79.4
NTUCross-View (CV)VA-LSTM87.6
SBUAccuracyVA-LSTM97.2
SYSUSetting-1VA-LSTM76.9
SYSUSetting-2VA-LSTM77.5
  • VA-LSTMはNTUでCS 79.4および CV 87.6 で最先端の精度を達成。
  • SBUでは97.2%の精度を達成し、従来手法を上回る。
  • SYSUでは設定-1で76.9%、設定-2で77.5%を達成。
  • エンドツーエンドの視点適応は、フレーム単位またはシークエンス単位の回転/翻訳に依存する前処理戦略を一貫して上回る。
  • 可視化結果は、アクションのダイナミクスを保持しつつ、より一貫した視点へスケルトンを回帰させることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。