QUICK REVIEW

[논문 리뷰] Skeleton-based Action Recognition Using LSTM and CNN

Chuankun Li, Pichao Wang|arXiv (Cornell University)|2017. 07. 06.

Human Pose and Action Recognition참고 문헌 2인용 수 28

한 줄 요약

이 논문은 3D CNN과 LSTMs의 특징을 융합하여 공간적 및 시간적 정보를 효과적으로 포착하는 스켈레톤 기반 동작 인식 방법을 제안한다. LSTMs에는 상대적 위치, 관절 간격, 선 간격 등의 공간적 특징을 사용하고, CNN에는 관절 궤적 및 간격 맵 등의 시간적 표현을 사용한 후 후기 점수 융합을 실시함으로써, 특히 CNN과 LSTM 간의 다중 융합 점수를 통해 NTU RGB+D 교차 시점 평가에서 90.10%의 최신 기술 수준(SOTA) 정확도를 달성하고, 대규모 도전 과제에서는 87.40%의 정확도를 기록하였다.

ABSTRACT

Recent methods based on 3D skeleton data have achieved outstanding performance due to its conciseness, robustness, and view-independent representation. With the development of deep learning, Convolutional Neural Networks (CNN) and Long Short Term Memory (LSTM)-based learning methods have achieved promising performance for action recognition. However, for CNN-based methods, it is inevitable to loss temporal information when a sequence is encoded into images. In order to capture as much spatial-temporal information as possible, LSTM and CNN are adopted to conduct effective recognition with later score fusion. In addition, experimental results show that the score fusion between CNN and LSTM performs better than that between LSTM and LSTM for the same feature. Our method achieved state-of-the-art results on NTU RGB+D datasets for 3D human action analysis. The proposed method achieved 87.40% in terms of accuracy and ranked $1^{st}$ place in Large Scale 3D Human Activity Analysis Challenge in Depth Videos.

연구 동기 및 목표

3D 스켈레톤 시퀀스를 2D 이미지 표현으로 변환할 때 CNN 기반 방법이 시간 정보를 효과적으로 유지하지 못하는 한계를 해결하기 위해.
LSTM을 포함한 RNN이 다양한 유형의 특징을 융합할 때 유용한 정보를 효과적으로 구분하지 못하는 문제를 해결하기 위해.
CNN의 공간적 특징 추출 능력과 LSTM의 시간 모델링 능력을 상호 보완적으로 활용하여 동작 인식 정확도를 향상시키기 위해.
스켈레톤 데이터를 사용한 3D 인간 행동 인식을 위한 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성하기 위해.

제안 방법

상대적 관절 위치(R), 쌍별 관절 간격(J), 관절에서 스켈레톤 선까지의 거리(L) 등 세 가지 유형의 공간 도메인 특징을 추출하여 별도의 LSTM 네트워크에 입력한다.
세 가지 평면(xy, xz, yz)에서 관절 궤적 맵(JTM)과 관절 간격 맵(JDM)을 사용하여 시간 도메인 표현을 생성하고, 이를 별도의 2D CNN에 입력한다.
CNN 및 LSTM 모델의 예측을 조합하는 후기 점수 융합을 적용하며, 평균 또는 최대값 융합보다 다중 점수 융합이 우수한 성능을 보였다.
이중 융합 전략을 적용: 첫 번째 단계로 R, J, L 등의 다른 LSTM 채널 간의 점수 융합, 두 번째 단계로 동일한 특징 유형에 대한 CNN 및 LSTM 출력 간의 점수 융합.
10개의 스트림 아키텍처를 사용: 공간 특징을 위한 3개의 LSTM 스트림과 시간 맵을 위한 7개의 CNN 스트림으로, 각각 별도로 훈련한 후 융합한다.
요소별 곱셈을 사용한 점수 융합을 통해 보완적 정보를 강화하여 단순 평균화나 최대 풀링보다 정확도와 강건성을 향상시켰다.

실험 결과

연구 질문

RQ1동일한 모델 유형 내 융합과 비교해 볼 때, CNN 및 LSTM 모델 간의 후기 점수 융합이 동작 인식 정확도 향상에 기여하는가?
RQ2LSTM에 다수의 공간적 특징 유형(R, J, L)을 사용할 경우 단일 특징 유형 사용보다 성능 향상이 이루어지는가?
RQ3CNN 기반 시간 맵 처리와 LSTM 기반 공간적 특징 처리의 조합이 보완적인 시공간 패턴을 효과적으로 포착하는가?
RQ4CNN 및 LSTM 스트림에서의 다중 점수 융합이 스켈레톤 기반 동작 인식에서 평균 또는 최대값 융합 전략을 능가하는가?
RQ5제안된 방법이 NTU RGB+D와 같은 표준 벤치마크 및 대규모 도전 과제에서 최신 기술 수준의 성능을 달성하는가?

주요 결과

제안된 방법은 NTU RGB+D 데이터셋의 교차 시점 분할에서 90.10%의 정확도를 기록하여 표 2에 나열된 모든 이전 방법들을 능가하였다.
깊이 영상에서의 대규모 3D 인간 활동 분석 챌린지에서 87.40%의 정확도로 1위를 기록하여 실제 적용 가능성도 확인하였다.
CNN 및 LSTM 모델 간의 다중 점수 융합(All-Mul-Score 융합)이 90.10%의 정확도를 기록하여 평균 융합(89.03%) 및 최대값 융합(86.03%) 전략보다 뚜렷하게 뛰어났다.
CNN에 관절 간격 맵(JDM-xyz)을 사용하고 LSTM 출력과 융합한 경우(R-JDM-xyz-Mul-Score) 정확도가 83.05%로 향상되어 이중 모델 융합의 가치를 입증하였다.
LSTM 모델 내에서 R, J, L 특징을 다중 점수 융합을 통해 조합한 결과(R-J-L-Mul-Score)는 교차 시점에서 85.35%의 정확도를 기록하여 다중 특징 융합이 적절히 조합될 경우 효과적임을 보였다.
수작업 특징 기반 방법(예: Lie Group, 동적 스켈레톤)과 딥 러닝 모델(예: ST-LSTM, Clips+CNN+MTLN)을 모두 능가하여 일반화 능력과 성능 면에서의 열세를 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.