Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Convolutional Neural Networks for Action Recognition Using Depth Map Sequences

Pichao Wang, Wanqing Li|arXiv (Cornell University)|2015. 01. 20.
Human Pose and Action Recognition참고 문헌 25인용 수 36
한 줄 요약

이 논문은 깊이 맵 시퀀스를 사용한 인간 동작 인식을 위한 새로운 HDMM + 3ConvNets 프레임워크를 제안한다. 이는 회전된 3D 포인트 클라우드와 계층적 깊이 운동 맵을 활용하여 강력한 시공간 특징을 추출한다. 다양한 데이터셋, 특히 대규모 통합 데이터셋에서 최신 기술 수준의 성능을 달성하며, 시야각 및 운동 속도 변화에 대해 뛰어난 일반화 능력과 강건성을 입증한다.

ABSTRACT

Recently, deep learning approach has achieved promising results in various fields of computer vision. In this paper, a new framework called Hierarchical Depth Motion Maps (HDMM) + 3 Channel Deep Convolutional Neural Networks (3ConvNets) is proposed for human action recognition using depth map sequences. Firstly, we rotate the original depth data in 3D pointclouds to mimic the rotation of cameras, so that our algorithms can handle view variant cases. Secondly, in order to effectively extract the body shape and motion information, we generate weighted depth motion maps (DMM) at several temporal scales, referred to as Hierarchical Depth Motion Maps (HDMM). Then, three channels of ConvNets are trained on the HDMMs from three projected orthogonal planes separately. The proposed algorithms are evaluated on MSRAction3D, MSRAction3DExt, UTKinect-Action and MSRDailyActivity3D datasets respectively. We also combine the last three datasets into a larger one (called Combined Dataset) and test the proposed method on it. The results show that our approach can achieve state-of-the-art results on the individual datasets and without dramatical performance degradation on the Combined Dataset.

연구 동기 및 목표

  • 3D 포인트 클라우드를 직접적으로 회전시켜 처리하여 깊이 기반 동작 인식에서 시야각 변동 문제를 해결한다.
  • 신체 형태와 운동 역학을 모두 포착할 수 있도록 가중치가 부여된 다중 척도 깊이 운동 맵(HDMM)을 생성하여 특징 추출을 향상시킨다.
  • 회전 및 시간 스케일링을 통한 인위적 데이터 증강을 통해 소규모 및 복잡한 데이터셋에서의 일반화 능력을 향상시킨다.
  • 사전 훈련된 ConvNets를 미세조정하여 개별 및 통합 데이터셋에서 최신 기술 수준의 성능을 달성한다.
  • 다양한 동작 복잡도, 노이즈 수준, 시야각을 가진 다양한 데이터셋에서의 강건성을 평가한다.

제안 방법

  • 방법은 3D 깊이 포인트 클라우드를 회전시켜 다양한 카메라 시야각을 시뮬레이션함으로써 시야각 불변성을 향상시킨다.
  • 각 회전된 시야각에 대해 깊이 프레임을 세 개의 수직 평면(X, Y, Z)에 투영하여 공간적 구조를 포착한다.
  • 다양한 시간 척도에서 연속 및 하향 샘플링된 프레임 간의 절대 차이를 계산하여 계층적 깊이 운동 맵(HDMM)을 구성한다.
  • 최근 운동 에너지를 우선시하기 위해 가중 요소를 적용하여 행동 시퀀스에서 동적 변화를 강조한다.
  • 세 개의 별도 3채널 ConvNets를 세 개의 수직 투영에서 생성된 HDMM에 대해 훈련하고, 분류 점수를 후기 융합한다.
  • 소규모 데이터셋에서 과적합을 방지하기 위해 ImageNet 사전 훈련 모델을 깊이 데이터에 대해 미세조정한다.

실험 결과

연구 질문

  • RQ1깊이 맵 기반 딥 러닝 프레임워크가 표준 동작 인식 벤치마크에서 최신 기술 수준의 성능을 달성할 수 있는가?
  • RQ23D 포인트 클라우드의 회전 및 시간 스케일링을 통한 데이터 증강 기법이 모델의 일반화 능력을 얼마나 효과적으로 향상시키는가?
  • RQ3제안된 HDMM 표현 방식이 다양한 시간 척도에서 형태와 운동 신호를 효과적으로 포착할 수 있는가?
  • RQ4다양한 동작, 시야각, 배경을 포함한 고분산 성질을 가진 통합 데이터셋에서 훈련된 모델의 성능은 어떠한가?
  • RQ5사전 훈련된 미세조정 기법이 소규모 깊이 기반 동작 인식 데이터셋에서 성능 향상에 얼마나 기여하는가?

주요 결과

  • MSRAction3D에서 제안된 방법은 94.58%의 정확도를 기록하여 이전 최신 기술 수준(89.83%)을 초월한다.
  • MSRAction3DExt에서 방법은 94.05%의 정확도를 달성하여 이전 최고 성능(91.15%)을 뛰어넘는다.
  • UTKinect-Action에서 방법은 91.92%의 정확도를 기록하며, 이전 최신 기술 수준(93.94%)을 초월한다.
  • MSRDailyActivity3D에서 방법은 78.12%의 정확도를 확보하여 이전 결과(60.63%)보다 크게 향상된다.
  • 통합 데이터셋에서 방법은 90.92%의 정확도를 기록하며, 개별 데이터셋 성능 대비 미미한 성능 저하를 보이며 강력한 강건성을 입증한다.
  • 혼동 행렬 분석 결과, 통합 데이터셋의 복잡도와 변동성이 증가함에도 불구하고 성능 저하가 최소화되어 일관된 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.