Skip to main content
QUICK REVIEW

[論文レビュー] Two-Stream 3D Convolutional Neural Network for Skeleton-Based Action Recognition

Hong Liu, Juanhui Tu|arXiv (Cornell University)|May 23, 2017
Human Pose and Action Recognition参考文献 24被引用数 111
ひとこと要約

2ストリーム3D CNNアーキテクチャを導入し、骨格ベースのアクション認識で空間と時間のストリームを分離し、多時相拡張がNTU RGB-DとSmartHomeデータセットで多くのRNNベースの手法を上回ることを示す。

ABSTRACT

It remains a challenge to efficiently extract spatialtemporal information from skeleton sequences for 3D human action recognition. Although most recent action recognition methods are based on Recurrent Neural Networks which present outstanding performance, one of the shortcomings of these methods is the tendency to overemphasize the temporal information. Since 3D convolutional neural network(3D CNN) is a powerful tool to simultaneously learn features from both spatial and temporal dimensions through capturing the correlations between three dimensional signals, this paper proposes a novel two-stream model using 3D CNN. To our best knowledge, this is the first application of 3D CNN in skeleton-based action recognition. Our method consists of three stages. First, skeleton joints are mapped into a 3D coordinate space and then encoding the spatial and temporal information, respectively. Second, 3D CNN models are seperately adopted to extract deep features from two streams. Third, to enhance the ability of deep features to capture global relationships, we extend every stream into multitemporal version. Extensive experiments on the SmartHome dataset and the large-scale NTU RGB-D dataset demonstrate that our method outperforms most of RNN-based methods, which verify the complementary property between spatial and temporal information and the robustness to noise.

研究の動機と目的

  • 3Dアクション認識のために骨格列から空間-時間情報を効率的に抽出する動機づけ。
  • 骨格データに適用する新規な2ストリーム3D CNNフレームワークを提案。
  • 各ストリームをマルチテンポラル版に拡張して深い特徴表現を向上させる。
  • 空間情報と時間情報のノイズ耐性と補完的利点を実証。
  • 大規模データセット(NTU RGB-D)とSmartHomeデータセットで手法を検証。

提案手法

  • 骨格関節を3D座標空間にマッピングして空間情報を捉える。
  • 空間情報と時間情報を2つの別個のストリームにエンコードする。
  • 各ストリームに対して独立に3D CNNモデルを適用し深い特徴を抽出する。
  • 各ストリームをマルチテンポラル版に拡張してグローバルな関係を捉える。
  • 実験を通じてノイズ耐性とストリーム間の補完特性を示す。

実験結果

リサーチクエスチョン

  • RQ12ストリーム3D CNNは骨格列から空間・時間特徴を効果的に学習してアクション認識に役立てられるか。
  • RQ2空間ストリームと時間ストリームを分離し、複数の時間スケールに拡張することは、単一ストリームやRNNベースの方法と比較して認識性能を向上させるか。
  • RQ32つのストリームは補完的で、骨格ベースデータのノイズに対して頑健か。
  • RQ4提案手法はNTU RGB-Dのような大規模データセットとSmartHomeでどのような性能を示すか。

主な発見

  • The two-stream 3D CNN approach outperforms most RNN-based methods on evaluated datasets.
  • Separating spatial and temporal information and processing them with 3D CNNs yields complementary representations.
  • Extending each stream to multi-temporal versions improves capture of global relationships in the data.
  • The method demonstrates robustness to noise in skeleton sequences.
  • Experiments on SmartHome and NTU RGB-D datasets show strong performance relative to competing methods.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。