Skip to main content
QUICK REVIEW

[논문 리뷰] Make Skeleton-based Action Recognition Model Smaller, Faster and Better

Fan Yang, Sakriani Sakti|arXiv (Cornell University)|2019. 07. 23.
Human Pose and Action Recognition참고 문헌 38인용 수 28
한 줄 요약

이 논문은 단지 0.15만 개의 파라미터를 사용하면서도 최고 수준의 정확도를 달성하는 경량 스켈레톤 기반 동작 인식 모델인 DD-Net을 제안한다. 이 모델은 단일 GPU에서 최대 3,500 FPS의 속도를 기록한다. 위치-시점 불변성 특징인 조인트 컬렉션 거리(Joint Collection Distances, JCD)와 이중 스케일 전역 운동 특징을 결합하고 1D CNN 기반 백본을 사용함으로써, SHREC 및 JHMDB 데이터셋에서 뛰어난 속도, 소형 크기, 높은 정확도를 동시에 확보한다. 이는 국소적인 관절 관계와 운동 역학을 효율적으로 포착하기 때문이다.

ABSTRACT

Although skeleton-based action recognition has achieved great success in recent years, most of the existing methods may suffer from a large model size and slow execution speed. To alleviate this issue, we analyze skeleton sequence properties to propose a Double-feature Double-motion Network (DD-Net) for skeleton-based action recognition. By using a lightweight network structure (i.e., 0.15 million parameters), DD-Net can reach a super fast speed, as 3,500 FPS on one GPU, or, 2,000 FPS on one CPU. By employing robust features, DD-Net achieves the state-of-the-art performance on our experimental datasets: SHREC (i.e., hand actions) and JHMDB (i.e., body actions). Our code will be released with this paper later.

연구 동기 및 목표

  • 기존 스켈레톤 기반 동작 인식 모델의 높은 계산 비용과 큰 모델 크기 문제를 해결한다.
  • 실시간 및 엣지 컴퓨팅 환경을 고려할 때 정확도를 유지하면서 모델의 효율성을 향상시킨다.
  • 위치 및 시점에 관계없이 불변인 통합된 특징 표현을 개발하며, 동시에 전역 운동 역학을 포착한다.
  • CPU 및 GPU에서 빠른 추론을 지원하는 경량 네트워크 아키텍처를 설계한다.
  • 다양한 운동 스케일과 궤적 의존성에 따라 변화하는 수많은 동작 유형에 대해 일반화 성능을 입증한다.

제안 방법

  • 관절 그룹 간의 쌍별 유클리드 거리를 계산하는 조인트 컬렉션 거리(Joint Collection Distances, JCD) 특징을 도입하며, 중복을 줄이고 위치-시점 불변성을 보장하기 위해 하삼각행렬만을 사용한다.
  • 다양한 시간 스케일에서 운동을 포착하는 이중 스케일 전역 운동 특징을 제안하여 운동 스케일 변동에 대한 강건성을 향상시킨다.
  • 가변적인 필터 수를 가진 1D CNN 기반 백본을 사용하여 모델 크기와 추론 속도를 제어하고, 자원이 제한된 장치에의 배포를 가능하게 한다.
  • 사전 정의된 관절 인덱스에 의존하지 않고, 관절 상관관계를 자동으로 학습하는 임bedding 메커니즘을 도입한다.
  • RNN을 피하고 1D 컨볼루션을 선호함으로써 병렬 계산을 지원하는 네트워크 아키텍처를 설계하여 고속 추론을 구현한다.
  • 2D 및 3D 스켈레톤을 사용하여 SHREC(손 동작) 및 JHMDB(신체 동작) 데이터셋에서 모델을 훈련 및 평가한다.

실험 결과

연구 질문

  • RQ1스켈레톤 기반 동작 인식 모델이 낮은 파라미터 수와 높은 추론 속도를 유지하면서도 최고 수준의 정확도를 달성할 수 있는가?
  • RQ2위치-시점 불변성 특징(JCD)이 전역 운동 맥락 없이 국소적인 스켈레톤 관계를 얼마나 효과적으로 포착하는가?
  • RQ3이중 스케일 전역 운동 특징이 다양한 동작 유형에서 운동 스케일 변동에 대해 얼마나 강건성을 향상시키는가?
  • RQ4경량 1D CNN 기반 아키텍처가 속도와 정확도 면에서 RNN 및 2D/3D CNN 기반 모델을 모두 능가할 수 있는가?
  • RQ5제안된 모델이 궤적 의존성과 궤적 비의존성 동작을 포함한 다양한 특성을 가진 데이터셋 간에 일반화 성능을 보일 수 있는가?

주요 결과

  • DD-Net은 1.82만 개의 파라미터로 SHREC 데이터셋(14종의 손 동작)에서 94.6%의 정확도를 달성하여 이전 방법들보다 정확도와 효율성 면에서 뛰어나다.
  • JHMDB 데이터셋에서 DD-Net은 1.82만 개의 파라미터로 77.2%의 정확도를 기록하고 GPU에서 2,200 FPS의 속도를 확보하여 신체 동작 인식에서 뛰어난 성능을 보였다.
  • 단지 0.15만 개의 파라미터로도 SHREC에서 91.8%의 정확도, JHMDB에서 65.7%의 정확도를 달성하여 정확도 손실 없이 매우 높은 효율성을 입증했다.
  • 단일 GPU(GTX 1080Ti)에서 3,500 FPS, CPU(Intel E5-2620)에서 2,000 FPS의 빠른 속도를 기록하여, 병렬 처리가 가능한 1D 컨볼루션 덕분에 RNN 기반 모델보다 크게 뛰어났다.
  • 제거 실험 결과, 이중 스케일 전역 운동 특징이 단일 스케일 운동 특징보다 정확도를 향상시키며, 특히 운동 속도가 변동성이 큰 동작에서 뚜렷한 개선 효과를 보였다.
  • 혼동 행렬 분석 결과, 모든 동작 클래스에서 높은 강건성과 낮은 오분류 비율을 유지함으로써 강력한 일반화 성능을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.