[논문 리뷰] View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition from Skeleton Data
관찰 시점을 자동으로 회귀시키는 뷰-적응 LSTM 프레임워크를 도입하여 뼈대 기반 액션 인식에서 NTU, SBU, SYSU 데이터셋에서 최첨단 성능을 달성한다.
Skeleton-based human action recognition has recently attracted increasing attention due to the popularity of 3D skeleton data. One main challenge lies in the large view variations in captured human actions. We propose a novel view adaptation scheme to automatically regulate observation viewpoints during the occurrence of an action. Rather than re-positioning the skeletons based on a human defined prior criterion, we design a view adaptive recurrent neural network (RNN) with LSTM architecture, which enables the network itself to adapt to the most suitable observation viewpoints from end to end. Extensive experiment analyses show that the proposed view adaptive RNN model strives to (1) transform the skeletons of various views to much more consistent viewpoints and (2) maintain the continuity of the action rather than transforming every frame to the same position with the same body orientation. Our model achieves significant improvement over the state-of-the-art approaches on three benchmark datasets.
연구 동기 및 목표
- 큰 시점 변화에서도 3D 뼈대 데이터로부터의 강인한 액션 인식을 촉진한다.
- 프레임 단위로 관찰 시점을 회귀하는 뷰 어댑테이션 메커니즘을 개발한다.
- 뷰 어댑테이션 모듈을 엔드-투-엔드 학습 가능한 시스템의 메인 LSTM 네트워크와 통합한다.
- 여러 데이터셋에서 최첨단 방법 대비 향상된 인식 성능을 입증한다.
제안 방법
- 프레임별 회전(alpha, beta, gamma)과 병진(translation d)을 예측하여 새로운 관찰 좌표계를 형성하는 View Adaptation Subnetwork를 제안한다.
- 적응된 시점에서 각 프레임의 관절을 강체 변환(R_t 및 d_t)을 사용하여 표현한다.
- 프레임 입력으로부터 회전 파라미터와 병진 파라미터를 학습하기 위해 별도의 LSTM 분기를 사용한다.
- 적응된 뼈대를 시간적 특징 학습 및 분류를 위해 Main LSTM Network(쌓인 3개의 LSTM 층)에 입력한다.
- 교차 엔트로피 손실로 전체 네트워크를 엔드-투-엔드 학습시키고, 메인 LSTM으로부터의 그래디언트를 View Adaptation Subnetwork으로 역전파한다.
실험 결과
연구 질문
- RQ1학습 가능한 프레임 단위 뷰포인트 적응이 시점 변화에 대한 견고성을 향상시킬 수 있는가?
- RQ2뷰포인트 조정과 액션 분류를 함께 학습하는 것이 인식 정확도에 미치는 영향은 무엇인가?
- RQ3벤치마크 데이터셋 전반에서 VA-LSTM은 전통적인 전처리 기반 시점 정규화 접근법과 어떻게 비교되는가?
- RQ4시점 간 정렬을 수행하면서 뷰 어댑테이션이 움직임 연속성을 보존하는가?
주요 결과
- VA-LSTM은 NTU에서 CS 79.4 및 CV 87.6으로 최첨단 정확도를 달성한다.
- SBU에서 VA-LSTM은 97.2% 정확도에 도달하여 기존 방법들을 능가한다.
- SYSU에서 VA-LSTM은 76.9%(setting-1) 및 77.5%(setting-2)를 달성한다.
- 엔드-투-엔드 뷰 어댑테이션은 프레임 혹은 시퀀스 수준의 회전/병진에 의존하는 전처리 전략보다 일관되게 더 우수하다.
- 시각화 결과 모델이 동작 역학을 보존하면서 뼈대를 더 일관된 시점으로 회귀시키는 것을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.