QUICK REVIEW

[논문 리뷰] Investigation of Different Skeleton Features for CNN-based 3D Action Recognition

Zewei Ding, Pichao Wang|arXiv (Cornell University)|2017. 05. 02.

Human Pose and Action Recognition인용 수 25

한 줄 요약

이 논문은 CNN 기반 3D 동작 인식을 위해 다양한 공간 뼈대 특징—예를 들어 관절-관절 거리, 벡터, 방향성, 선 간 각도—를 텍스처 색상 이미지로 인코딩하는 방법을 제안한다. 여러 특징 유형, 관절 선택 전략, 인코딩 방법을 탐색함으로써, 교차 시야 프로토콜 하에서 NTU RGB+D 데이터셋에서 최신 기술 수준의 정확도 82.31%를 달성하며, 이는 이전의 CNN 및 RNN 기반 방법들을 능가한다.

ABSTRACT

Deep learning techniques are being used in skeleton based action recognition tasks and outstanding performance has been reported. Compared with RNN based methods which tend to overemphasize temporal information, CNN-based approaches can jointly capture spatio-temporal information from texture color images encoded from skeleton sequences. There are several skeleton-based features that have proven effective in RNN-based and handcrafted-feature-based methods. However, it remains unknown whether they are suitable for CNN-based approaches. This paper proposes to encode five spatial skeleton features into images with different encoding methods. In addition, the performance implication of different joints used for feature extraction is studied. The proposed method achieved state-of-the-art performance on NTU RGB+D dataset for 3D human action analysis. An accuracy of 75.32\% was achieved in Large Scale 3D Human Activity Analysis Challenge in Depth Videos.

연구 동기 및 목표

기본적인 관절 위치와 거리 외의 더 풍부한 공간 뼈대 특징이 CNN 기반 3D 동작 인식에 효과적인가를 조사하는 것.
뼈대 기반 동작 인식에서 특징 추출을 위한 다양한 관절 선택 전략의 성능 영향을 평가하는 것.
공간 뼈대 특징을 텍스처 색상 이미지로 변환하는 데 사용되는 여러 인코딩 방법을 비교하여 개선된 시공간 표현을 확보하는 것.
인코딩된 뼈대 특징을 기반으로 훈련된 CNN 프레임워크를 사용해 NTU RGB+D 데이터셋에서 최신 기술 수준의 성능을 달성하는 것.
다양한 특징 유형과 인코딩 방식으로 훈련된 다수의 CNN 모델 간 점수 융합의 효과를 검증하는 것.

제안 방법

2D 및 3D 관절 좌표에서 다섯 가지 유형의 공간 뼈대 특징을 추출: 관절-관절 거리(JJd), 관절-관절 벡터(JJv), 관절-관절 방향성(JJo), 관절-선 거리(JLd), 선-선 각도(LLa).
유의미한 관절 조합을 우선시하기 위해 세 가지 관절 선택 전략(JS1, JS2, JS3)을 적용하였으며, JS3가 뛰어난 성능을 보였다.
색상이 특징의 크기를 나타내고 공간적 배열이 관절 간 관계를 표현하도록, 여러 인코딩 방법(EM1, EM2, EM3)을 사용해 각 특징 유형을 텍스처 색상 이미지로 변환.
Caffe를 사용하여 각 인코딩된 이미지 유형에 대해 별도의 CNN 모델을 훈련하였으며, 다단계 학습률 스케줄을 사용한 확률적 경사 하강법를 적용.
다양한 CNN 모델의 최종 분류 점수를 요소별 곱셈을 통해 융합하여 정확도 향상.
자세의 변동성 영향을 줄이기 위해 관절 좌표를 척추 길이 스케일링으로 정규화하고, 신체 기준좌표계로 변환.

실험 결과

연구 질문

RQ13D 동작 인식을 위해 텍스처 이미지로 인코딩된 공간 뼈대 특징 중에서 어떤 특징(예: JJd, JJv, JLd)이 가장 분류 능력을 갖는가?
RQ2다양한 관절 선택 전략(JS1, JS2, JS3)이 CNN 기반 동작 인식 모델의 성능에 어떤 영향을 미치는가?
RQ3뼈대 특징을 색상 이미지로 변환할 때 어떤 인코딩 방법(EM1, EM2, EM3)이 시공간 정보를 가장 잘 유지하는가?
RQ4다른 특징 유형과 인코딩 방식으로 훈련된 다수의 CNN 모델 간 점수 융합이 전체 정확도 향상에 기여하는가?
RQ5더 풍부한 공간 특징(예: 벡터, 각도)이 더 단순한 특징(예: 거리)보다 CNN 기반 3D 동작 인식에서 더 우수한 성능을 내는가?

주요 결과

관절-관절 벡터(JJv) 특징은 단일 모델에서 가장 높은 정확도 69.02%를 기록했으며, 융합 결과 75.23%에 중요한 기여를 하였다.
관절-선 거리(JLd) 특징이 가장 우수한 전체 성능을 보였으며, 최종 융합 모델에서 82.31%의 정확도를 달성하여 모든 베이스라인 방법을 초월하였다.
모든 특징 유형에서 JS3 관절 선택 전략이 JS1 및 JS2를 항상 능가했으며, 이는 선택적 관절 조합이 노이즈를 감소시키고 정확도를 향상시킨다는 것을 시사한다.
제안된 방법은 교차 시야 프로토콜 하에서 NTU RGB+D 데이터셋에서 최신 기술 수준의 정확도 82.31%를 달성하였으며, 이는 이전 방법들인 ST-LSTM+Trust Gate(77.70%) 및 JTM(75.20%)를 뛰어넘었다.
다양한 특징 및 인코딩 방식으로 훈련된 다수의 CNN 모델 간 점수 융합은 개별 모델 대비 최대 10%의 정확도 향상을 이끌었으며, 다중 모odal 특징 학습의 유용성을 입증하였다.
텍스처 인코딩된 이미지의 사용은 공간적 및 시간적 동역학을 효과적으로 포착하였으며, 뼈대 기반 동작 인식에서 CNN 입력으로서의 유용성을 검증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.