QUICK REVIEW

[논문 리뷰] An End-to-End Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data

Sijie Song, Cuiling Lan|arXiv (Cornell University)|2016. 11. 18.

Human Pose and Action Recognition참고 문헌 31인용 수 481

한 줄 요약

이 논문은 골격 기반 동작 인식을 위한 공간 관절 주의와 시간 프레임 주의가 포함된 엔드-투-엔드 LSTM 기반 아키텍처를 제안하고, 정규화 손실과 공동 학습 전략으로 학습시키며, SBU와 NTU 데이터셋에서 최첨단 성과를 달성한다.

ABSTRACT

Human action recognition is an important task in computer vision. Extracting discriminative spatial and temporal features to model the spatial and temporal evolutions of different actions plays a key role in accomplishing this task. In this work, we propose an end-to-end spatial and temporal attention model for human action recognition from skeleton data. We build our model on top of the Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM), which learns to selectively focus on discriminative joints of skeleton within each frame of the inputs and pays different levels of attention to the outputs of different frames. Furthermore, to ensure effective training of the network, we propose a regularized cross-entropy loss to drive the model learning process and develop a joint training strategy accordingly. Experimental results demonstrate the effectiveness of the proposed model,both on the small human action recognition data set of SBU and the currently largest NTU dataset.

연구 동기 및 목표

공간 관절의 관련성과 시간 프레임의 중요성을 모두 모델링하여 뼈대 데이터에서 강력한 동작 인식을 촉진합니다.
프레임 내에서 판별적인 관절에 주목하고, 시간에 걸쳐 중요한 프레임에 주목하도록 학습하는 엔드-투-엔드 아키텍처를 개발합니다.
결합된 주의 모듈의 학습 안정을 위해 정규화된 손실 항 및 공동 학습 전략을 도입합니다.
SBU Kinect Interaction 및 NTU RGB+D를 포함한 공개 골격 데이터셋에서 효과를 입증합니다.

제안 방법

프레임 내 관절의 가중치를 결정하기 위해 관절 선택 게이트를 계산하는 공간 주의 모듈이 있는 LSTM 기반 네트워크를 제안합니다.
최종 시퀀스 분류에 대한 프레임 기여를 가중하기 위해 프레임 선택 게이트를 할당하는 시간 주의 모듈을 구현합니다.
공간 및 시간 주의 정규화 항과 가중치 희소성 항을 포함하는 정규화된 교차 엔트로피 손실을 형식화합니다.
전체 네트워크 미세 조정 전에 공간/시간 주의 구성 요소를 선학습하는 두 단계의 공동 학습 절차를 채택합니다.
주 네트워크에 3개의 LSTM 계층을 사용하고 각 주의 하위네트워크마다 1개의 LSTM 계층을 사용하며 계층당 100개 유닛을 사용합니다.
CS 및 CV 설정에서 SBU Kinect Interaction 및 NTU RGB+D 데이터셋을 평가합니다.

실험 결과

연구 질문

RQ1엔드-투-엔드 공간-시간 주의가 비주의 기반선 대비 골격 기반 동작 인식을 개선할 수 있나요?
RQ2공간 관절 주의와 시간 프레임 주의가 함께 사용될 때 보완적 개선을 제공합니까?
RQ3정규화 항과 제안된 공동 학습 전략이 학습 안정성과 성능에 어떤 영향을 미칩니까?
RQ4제안된 STA-LSTM이 SBU 및 NTU 데이터셋에서 이전의 최첨단 방법과 어떻게 비교되나요?

주요 결과

공간 주의와 시간 주의가 각각 베이스라인 LSTM 대비 정확도를 개선하며, SBU/NTU에서 각각 최대 약 5.1% 및 6.4%의 개선을 보였습니다.
공간 주의와 시간 주의를 모두 결합한 STA-LSTM이 모든 데이터세트에서 최상의 결과를 제공합니다.
정규화 항이 공간 및 시간 주의 모듈의 성능을 향상시키고, 공동 학습 전략이 수렴을 향상시킵니다.
STA-LSTM은 NTU(CS 및 CV)에서 이전 방법에 비해 상당한 정확도 향상을 달성하고 SBU에서 경쟁력 있는 결과를 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.