QUICK REVIEW

[論文レビュー] NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis

Amir Shahroudy, Jun Liu|arXiv (Cornell University)|Apr 11, 2016

Human Pose and Action Recognition参考文献 47被引用数 373

ひとこと要約

NTU RGB+D を紹介し、56,880 サンプル、60 クラスに跨る大規模な RGB+D アクション認識データセットを提案、また部位認識付き LSTM (P-LSTM) を提案して、クロスサブジェクトおよびクロスビュー評価でベースラインを上回る。

ABSTRACT

Recent approaches in depth-based human activity analysis achieved outstanding performance and proved the effectiveness of 3D representation for classification of action classes. Currently available depth-based and RGB+D-based action recognition benchmarks have a number of limitations, including the lack of training samples, distinct class labels, camera views and variety of subjects. In this paper we introduce a large-scale dataset for RGB+D human action recognition with more than 56 thousand video samples and 4 million frames, collected from 40 distinct subjects. Our dataset contains 60 different action classes including daily, mutual, and health-related actions. In addition, we propose a new recurrent neural network structure to model the long-term temporal correlation of the features for each body part, and utilize them for better action classification. Experimental results show the advantages of applying deep learning methods over state-of-the-art hand-crafted features on the suggested cross-subject and cross-view evaluation criteria for our dataset. The introduction of this large scale dataset will enable the community to apply, develop and adapt various data-hungry learning techniques for the task of depth-based and RGB+D-based human activity analysis.

研究の動機と目的

データ集約的な学習手法を可能にするために、大規模で多様な RGB+D アクション認識ベンチマークの必要性を喚起する。
多様な主体、視点、および環境を備えた豊富な注釈付きデータセットを提供し、堅牢なクロスサブジェクトおよびクロスビュー評価を可能にする。
体の部位構造を活用して時系列アクション認識を向上させる Part-aware LSTM モデルを提案する。
新しいデータセット上で従来の手工的特徴量、骨格ベースの手法、および再帰型ニューラルネットワークを評価する。
NTU RGB+D ベンチマークにおいてデータ駆動型の学習手法が手作り特徴よりも優れていることを示す。

提案手法

NTU RGB+D のデータモダリティを導入: depth maps、3D joints、RGB フレーム、Kinect v2 で取得した infrared sequences.
日常的、健康関連、相互作用のアクション全80カメラ viewpoints? 80 viewpoints? Into Japanese: 40 名の対象、80 のカメラ視点、60 のアクションクラスから、56,880 の RGB+D ビデオサンプルを収集。
クロスサブジェクトおよびクロスビュー評価基準を定義し、学習のための前処理済み骨格表現を提供する。
体を五つの部位に分割し、出力ゲートを共有しつつ部位固有のメモリセルを割り当てて Part-Aware LSTM (P-LSTM) を開発する。
P-LSTM の式を定式化: 各部位 i^p、f^p、g^p と c_t^p の記憶; 共有出力ゲート o; h_t の部位別記憶を連結 (論文の式 9–12)。
P-LSTM を depth-map ベースライン、骨格ベースの手法、標準の RNN/LSTM アーキテクチャと比較する。

実験結果

リサーチクエスチョン

RQ1大規模な RGB+D アクションデータセットはデータを多く必要とする学習手法を支援し、クロスサブジェクトおよびクロスビューの一般化を改善できるか？
RQ2骨格および深度ベースの特徴だけで十分か、それとも深い系列モデル（RNN/LSTM）は NTU RGB+D で手作り特徴を上回ることができるか？
RQ3部位構造を Part-Aware LSTM で組み込むことが、 depth/skeleton データで標準の LSTM よりアクション認識性能を向上させるか？
RQ4NTU RGB+D ベンチマークのさまざまな手法で、クロスサブジェクトとクロスビュー評価はどのように異なるか？
RQ5多層 P-LSTM と単層および他の再帰アーキテクチャとの相対的な性能向上はどの程度か？

主な発見

Method	Cross Subject Accuracy	Cross View Accuracy
HOG 2 [24]	32.24%	22.27%
Super Normal Vector [44]	31.82%	13.61%
HON4D [25]	30.56%	7.26%
Lie Group [37]	50.08%	52.76%
Skeletal Quads [10]	38.62%	41.36%
FTP Dynamic Skeletons [15]	60.23%	65.22%
HBRNN-L [9]	59.07%	63.97%
1 Layer RNN	56.02%	60.24%
2 Layer RNN	56.29%	64.09%
1 Layer LSTM	59.14%	66.81%
2 Layer LSTM	60.69%	67.29%
1 Layer P-LSTM	62.05%	69.40%
2 Layer P-LSTM	62.93%	70.27%

NTU RGB+D には 56,880 サンプル、60 アクションクラス、40 名の被験者、80 ビューポイントが含まれ、広範なクロスサブジェクトおよびクロスビュー評価を可能にする。
Part-Aware LSTM (P-LSTM) はすべてのベースラインを上回り、62.93% のクロスサブジェクト精度と 70.27% のクロスビュー精度を達成。
Depth-map ベースラインは視点依存の深度外観のためクロスビュー設定でクロスサブジェクトより悪く、骨格ベースの特徴は視点をまたいで一般化しやすいが、正確な体のトラッキングに依存する。
スタックされた LSTMs は性能を向上させる。P-LSTM は部位ごとのダイナミクスをモデル化して結合することで最高の結果を提供。
手作り特徴量（HOG2、HON4D など）および他の骨格ベース手法と比較して、P-LSTM は NTU RGB+D ベンチマークで明確な利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。