QUICK REVIEW

[논문 리뷰] Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks

Hongsong Wang, Liang Wang|arXiv (Cornell University)|2017. 04. 09.

Human Pose and Action Recognition참고 문헌 52인용 수 29

한 줄 요약

이 논문은 행동 인식을 위한 인간의 뼈대의 시간적 동적 변화와 공간적 구성 요소를 모두 모델링하는 이중 스트림 순환 신경망(RNN)을 제안한다. 시간적 변화와 공간적 관계를 별도의 RNN 스트림으로 처리하고, 3D 데이터 증강 기법을 통합함으로써 NTU RGB+D, SBU Interaction, ChaLearn Gesture 데이터셋에서 최신 기준 성능(SOTA)을 달성하며, 이전 방법들보다 최대 2.1% 높은 정확도를 기록한다.

ABSTRACT

Recently, skeleton based action recognition gains more popularity due to cost-effective depth sensors coupled with real-time skeleton estimation algorithms. Traditional approaches based on handcrafted features are limited to represent the complexity of motion patterns. Recent methods that use Recurrent Neural Networks (RNN) to handle raw skeletons only focus on the contextual dependency in the temporal domain and neglect the spatial configurations of articulated skeletons. In this paper, we propose a novel two-stream RNN architecture to model both temporal dynamics and spatial configurations for skeleton based action recognition. We explore two different structures for the temporal stream: stacked RNN and hierarchical RNN. Hierarchical RNN is designed according to human body kinematics. We also propose two effective methods to model the spatial structure by converting the spatial graph into a sequence of joints. To improve generalization of our model, we further exploit 3D transformation based data augmentation techniques including rotation and scaling transformation to transform the 3D coordinates of skeletons during training. Experiments on 3D action recognition benchmark datasets show that our method brings a considerable improvement for a variety of actions, i.e., generic actions, interaction activities and gestures.

연구 동기 및 목표

기존의 RNN 기반 방법들이 뼈대 시퀀스의 시간적 의존성만 모델링하고 관절의 공간적 구성 요소를 忽略하는 한계를 해결하기 위해.
시퀀스로 변환된 뼈대 그래프에 기반한 RNN을 통해 신체 관절 간의 공간적 관계를 명시적으로 모델링하여 행동 인식 정확도를 향상시키기 위해.
훈련 중 3D 뼈대 좌표에 대해 3D 변환 기반 데이터 증강(회전, 스케일링, 시어링)을 적용하여 모델의 일반화 능력을 향상시키기 위해.
시간적 및 공간적 표현을 후기 융합(fusion) 방식으로 통합하는 종단간(end-to-end) 학습 가능한 통합 아키텍처를 개발하기 위해.
일반적인 행동, 상호작용, 제스처를 포함한 다양한 행동 인식 벤치마크에서 뛰어난 성능을 입증하기 위해.

제안 방법

이 방법은 이중 스트림 RNN 아키텍처를 사용한다: 한 스트림은 시간에 걸친 관절 좌표 시퀀스를 이용해 시간적 동적 변화를 처리하기 위해 스택드 또는 계층적 RNN을 적용한다.
공간 스트림은 뼈대의 3D 그래프를 공간적 구조를 유지하는 두 가지 전략을 사용해 관절의 시퀀스로 변환한 후 RNN에 입력한다.
계층적 RNN은 인간의 신체 운동역학을 기반으로 설계되어 파라미터 수를 줄이고 다중 수준의 운동 패tern을 포착한다.
최종 분류를 위해 소프트맥스 레이어를 사용하기 전에 시간적 스트림과 공간적 스트림의 특징을 후기 융합 방식으로 통합한다.
훈련 중에 3D 뼈대 좌표에 무작위로 회전, 스케일링, 시어링 변환을 적용하여 3D 데이터 증강을 수행함으로써 모델의 강인성과 일반화 능력을 향상시킨다.
전체 네트워크는 백프로파게이션 스트림을 통해 시간에 따라 최적화되는 종단간 학습 가능한 아키텍처이며, 두 스트림을 동시에 최적화한다.

Figure 1: A two-stream RNN architecture for skeleton based action recognition. Here Softmax denotes a fully connected layer with a softmax activation function.

실험 결과

연구 질문

RQ1스켈레톤의 시간적 동적 변화와 공간적 구성 요소를 동시에 모델링하면, 시간적 시퀀스만 모델링하는 기존 방법들보다 행동 인식 성능을 향상시킬 수 있는가?
RQ2스택드 RNN와 계층적 RNN의 서로 다른 아키텍처가 뼈대 시퀀스 모델링에서 성능과 파라미터 효율성에 어떤 영향을 미치는가?
RQ3공간적 뼈대 그래프를 시퀀스로 변환하는 것이 RNN 기반의 공간적 의존성 모델링에 얼마나 효과적인가?
RQ43D 데이터 증강 기법이 스켈레톤 기반 행동 인식에서 일반화 능력과 강인성을 얼마나 향상시키는가?
RQ5제안된 이중 스트림 RNN 아키텍처가 다양한 행동 인식 벤치마크에서 최신 기준 성능(SOTA)을 달성하는가?

주요 결과

NTU RGB+D 데이터셋에서, 이중 스트림 RNN은 교차 주제 평가에서 71.3%의 정확도, 교차 시점 평가에서 79.5%의 정확도를 기록하여 이전 최신 기준 방법(Trust Gate ST-LSTM)보다 각각 2.1%, 1.8% 높은 성능을 보였다.
SBU Interaction 데이터셋에서, 이 방법은 94.8%의 정확도를 기록하여 기존 최고의 RNN 기반 방법보다 1.5% 높고, 최고의 수작업 특징 방법보다 7.9% 높았다.
ChaLearn Gesture Recognition 데이터셋에서, 모델은 91.7%의 F1 스코어를 기록하여 이전 최신 기준 방법(VideoDarwin)보다 F1 스코어에서 16% 이상 높았다.
모델은 하이퍼파라미터 설정에 대해 뛰어난 안정성 보인다: 다양한 시간 윈도우 크기(τ) 범위에서도 성능이 일관되며, τ가 특정 범위 내일 때 최적의 성능을 기록한다.
계층적 RNN 아키텍처는 스택드 RNN 대비 파라미터 수를 줄이며 성능을 유지하거나 향상시켜 효율성과 효과성을 동시에 입증한다.
3D 데이터 증강 기법(회전, 스케일링, 시어링)은 일반화 능력을 크게 향상시키고, 특히 작은 데이터셋에서 과적합을 방지하는 데 효과적이다.

Figure 2: (a) A two-layer stacked RNN for sequence classification. (b) A LSTM block with input, output, and forget gates [ 17 ] .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.