QUICK REVIEW

[논문 리뷰] NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis

Amir Shahroudy, Jun Liu|arXiv (Cornell University)|2016. 04. 11.

Human Pose and Action Recognition참고 문헌 47인용 수 373

한 줄 요약

NTU RGB+D 소개, 56,880 샘플을 가진 60개 클래스로 구성된 대규모 RGB+D 행동 인식 데이터셋을 소개하고, cross-subject 및 cross-view 평가에서 baselines를 능가하는 part-aware LSTM (P-LSTM)을 제안한다.

ABSTRACT

Recent approaches in depth-based human activity analysis achieved outstanding performance and proved the effectiveness of 3D representation for classification of action classes. Currently available depth-based and RGB+D-based action recognition benchmarks have a number of limitations, including the lack of training samples, distinct class labels, camera views and variety of subjects. In this paper we introduce a large-scale dataset for RGB+D human action recognition with more than 56 thousand video samples and 4 million frames, collected from 40 distinct subjects. Our dataset contains 60 different action classes including daily, mutual, and health-related actions. In addition, we propose a new recurrent neural network structure to model the long-term temporal correlation of the features for each body part, and utilize them for better action classification. Experimental results show the advantages of applying deep learning methods over state-of-the-art hand-crafted features on the suggested cross-subject and cross-view evaluation criteria for our dataset. The introduction of this large scale dataset will enable the community to apply, develop and adapt various data-hungry learning techniques for the task of depth-based and RGB+D-based human activity analysis.

연구 동기 및 목표

대규모이고 다양한 RGB+D 행동 인식 벤치마크의 필요성을 자극한다.
다양한 피험자, 시야 및 환경으로 구성된 풍부한 주석 데이터셋을 제공하여 강건한 cross-subject 및 cross-view 평가를 가능하게 한다.
바디-파트 구조를 활용해 순차적 행동 인식을 개선하는 Part-aware LSTM 모델을 제안한다.
새로운 데이터셋에서 전통적인 수동 특징, 골격 기반 방법, 순환 신경망을 평가한다.
NTU RGB+D 벤치마크에서 데이터 기반 학습 방법이 수동 특징보다 우수하다는 것을 보여준다.

제안 방법

NTU RGB+D 데이터 모달리티를 도입: 깊이 맵, 3D 관절, RGB 프레임, Kinect v2로 캡처한 적외선 시퀀스.
40명의 피험자, 80개의 카메라 시점, 60개 동작 클래스로부터 56,880개의 RGB+D 비디오 샘플을 수집한다.
크로스-주체 및 크로스-뷰 평가 기준 정의 및 학습을 위한 전처리된 골격 표현을 제공한다.
신체를 다섯 부분으로 나누고 부분별 기억 셀을 할당하되 출력 게이트를 공유하는 방식으로 Part-Aware LSTM (P-LSTM) 개발한다.
P-LSTM 방정식: i^p, f^p, g^p 등의 부분별 게이트와 c_t^p 메모리; 공유된 출력 게이트 o; h_t에 대한 부분 메모리의 연결(concatenation) (논문의 식 9–12).
P-LSTM을 깊이 맵 기반 기준, 골격 기반 방법 및 표준 RNN/LSTM 아키텍처와 비교한다.

실험 결과

연구 질문

RQ1대규모 RGB+D 행동 데이터셋이 데이터-소비 학습 방법을 지원하고 cross-subject 및 cross-view 일반화를 개선할 수 있는가?
RQ2골격 및 깊이 기반 특징만으로 sufficient 한가, 아니면 심층 시퀀스 모델(RNN/LSTM)이 NTU RGB+D에서 수동 특징보다 우수한가?
RQ3Body-part 구조를 Part-Aware LSTM으로 도입하면 깊이/골격 데이터에서의 행동 인식 성능이 표준 LSTM 대비 향상되는가?
RQ4크로스-주체 및 크로스-뷰 평가가 NTU RGB+D 벤치마크의 다양한 방법에 대해 어떻게 다른가?
RQ5다층 P-LSTM과 단층 및 다른 순환 아키텍처 간의 상대적 성능 향상은 어느 정도인가?

주요 결과

NTU RGB+D에는 56,880 샘플, 60개 액션 클래스, 40명의 피험자, 및 80개의 시점이 포함되어 있어 광범위한 cross-subject 및 cross-view 평가를 가능하게 한다.
Part-Aware LSTM (P-LSTM)이 모든 기준선을 능가하여 cross-subject에서 62.93%, cross-view에서 70.27%의 정확도를 달성한다.
깊이 맵 기반 기준은 시점 의존적 깊이 외관으로 인해 cross-view에서 cross-subject보다 성능이 떨어지며, 골격 기반 특징은 시점 간 일반화가 더 잘되지만 정확한 바디 트래킹에 의존한다.
Stacked LSTMs는 성능을 향상시키며, P-LSTM은 부분별 동역학을 모델링하고 이를 결합하여 최상의 결과를 제공한다.
수동 특징(HOG2, HON4D 등) 및 다른 골격 기반 방법과 비교할 때, P-LSTM이 NTU RGB+D 벤치마크에서 명확한 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.