QUICK REVIEW

[논문 리뷰] Make Skeleton-based Action Recognition Model Smaller, Faster and Better

Fan Yang, Sakriani Sakti|arXiv (Cornell University)|2019. 07. 23.

Human Pose and Action Recognition참고 문헌 38인용 수 28

한 줄 요약

이 논문은 단지 0.15만 개의 파라미터를 사용하면서도 최고 수준의 정확도를 달성하는 경량 스켈레톤 기반 동작 인식 모델인 DD-Net을 제안한다. 이 모델은 단일 GPU에서 최대 3,500 FPS의 속도를 기록한다. 위치-시점 불변성 특징인 조인트 컬렉션 거리(Joint Collection Distances, JCD)와 이중 스케일 전역 운동 특징을 결합하고 1D CNN 기반 백본을 사용함으로써, SHREC 및 JHMDB 데이터셋에서 뛰어난 속도, 소형 크기, 높은 정확도를 동시에 확보한다. 이는 국소적인 관절 관계와 운동 역학을 효율적으로 포착하기 때문이다.

ABSTRACT

Although skeleton-based action recognition has achieved great success in recent years, most of the existing methods may suffer from a large model size and slow execution speed. To alleviate this issue, we analyze skeleton sequence properties to propose a Double-feature Double-motion Network (DD-Net) for skeleton-based action recognition. By using a lightweight network structure (i.e., 0.15 million parameters), DD-Net can reach a super fast speed, as 3,500 FPS on one GPU, or, 2,000 FPS on one CPU. By employing robust features, DD-Net achieves the state-of-the-art performance on our experimental datasets: SHREC (i.e., hand actions) and JHMDB (i.e., body actions). Our code will be released with this paper later.

연구 동기 및 목표

기존 스켈레톤 기반 동작 인식 모델의 높은 계산 비용과 큰 모델 크기 문제를 해결한다.
실시간 및 엣지 컴퓨팅 환경을 고려할 때 정확도를 유지하면서 모델의 효율성을 향상시킨다.
위치 및 시점에 관계없이 불변인 통합된 특징 표현을 개발하며, 동시에 전역 운동 역학을 포착한다.
CPU 및 GPU에서 빠른 추론을 지원하는 경량 네트워크 아키텍처를 설계한다.
다양한 운동 스케일과 궤적 의존성에 따라 변화하는 수많은 동작 유형에 대해 일반화 성능을 입증한다.

제안 방법

관절 그룹 간의 쌍별 유클리드 거리를 계산하는 조인트 컬렉션 거리(Joint Collection Distances, JCD) 특징을 도입하며, 중복을 줄이고 위치-시점 불변성을 보장하기 위해 하삼각행렬만을 사용한다.
다양한 시간 스케일에서 운동을 포착하는 이중 스케일 전역 운동 특징을 제안하여 운동 스케일 변동에 대한 강건성을 향상시킨다.
가변적인 필터 수를 가진 1D CNN 기반 백본을 사용하여 모델 크기와 추론 속도를 제어하고, 자원이 제한된 장치에의 배포를 가능하게 한다.
사전 정의된 관절 인덱스에 의존하지 않고, 관절 상관관계를 자동으로 학습하는 임bedding 메커니즘을 도입한다.
RNN을 피하고 1D 컨볼루션을 선호함으로써 병렬 계산을 지원하는 네트워크 아키텍처를 설계하여 고속 추론을 구현한다.
2D 및 3D 스켈레톤을 사용하여 SHREC(손 동작) 및 JHMDB(신체 동작) 데이터셋에서 모델을 훈련 및 평가한다.

실험 결과

연구 질문

RQ1스켈레톤 기반 동작 인식 모델이 낮은 파라미터 수와 높은 추론 속도를 유지하면서도 최고 수준의 정확도를 달성할 수 있는가?
RQ2위치-시점 불변성 특징(JCD)이 전역 운동 맥락 없이 국소적인 스켈레톤 관계를 얼마나 효과적으로 포착하는가?
RQ3이중 스케일 전역 운동 특징이 다양한 동작 유형에서 운동 스케일 변동에 대해 얼마나 강건성을 향상시키는가?
RQ4경량 1D CNN 기반 아키텍처가 속도와 정확도 면에서 RNN 및 2D/3D CNN 기반 모델을 모두 능가할 수 있는가?
RQ5제안된 모델이 궤적 의존성과 궤적 비의존성 동작을 포함한 다양한 특성을 가진 데이터셋 간에 일반화 성능을 보일 수 있는가?

주요 결과

DD-Net은 1.82만 개의 파라미터로 SHREC 데이터셋(14종의 손 동작)에서 94.6%의 정확도를 달성하여 이전 방법들보다 정확도와 효율성 면에서 뛰어나다.
JHMDB 데이터셋에서 DD-Net은 1.82만 개의 파라미터로 77.2%의 정확도를 기록하고 GPU에서 2,200 FPS의 속도를 확보하여 신체 동작 인식에서 뛰어난 성능을 보였다.
단지 0.15만 개의 파라미터로도 SHREC에서 91.8%의 정확도, JHMDB에서 65.7%의 정확도를 달성하여 정확도 손실 없이 매우 높은 효율성을 입증했다.
단일 GPU(GTX 1080Ti)에서 3,500 FPS, CPU(Intel E5-2620)에서 2,000 FPS의 빠른 속도를 기록하여, 병렬 처리가 가능한 1D 컨볼루션 덕분에 RNN 기반 모델보다 크게 뛰어났다.
제거 실험 결과, 이중 스케일 전역 운동 특징이 단일 스케일 운동 특징보다 정확도를 향상시키며, 특히 운동 속도가 변동성이 큰 동작에서 뚜렷한 개선 효과를 보였다.
혼동 행렬 분석 결과, 모든 동작 클래스에서 높은 강건성과 낮은 오분류 비율을 유지함으로써 강력한 일반화 성능을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.