QUICK REVIEW

[논문 리뷰] Skeleton-Based Relational Modeling for Action Recognition.

Lin Li, Zheng Wu|arXiv (Cornell University)|2018. 05. 07.

Human Pose and Action Recognition참고 문헌 29인용 수 42

한 줄 요약

이 논문은 행동 인식을 위한 인간 뼈대 시퀀스의 공간적 구성과 시간적 동역학을 모델링하는 이중 스트림 주의형 순환 상관계망인 ARRN-LSTM을 제안한다. 상관계귀 유추 편향과 적응형 주의를 활용하여 여러 벤치마크에서 기존 방법들을 능가하며, 개선된 구조적 및 순차적 특징 학습을 통해 최신 기술 수준의 성능을 달성한다.

ABSTRACT

With the fast development of effective and low-cost human skeleton capture systems, skeleton-based action recognition has attracted much attention recently. Most existing methods use Convolutional Neural Network(CNN) and Recurrent Neural Network(RNN) to extract spatio-temporal information embedded in the skeleton sequences for action recognition. However, these approaches are limited in the ability of relational modeling in a single skeleton, due to the loss of important structural information when converting the raw skeleton data to adapt to the CNN or RNN input. In this paper, we propose an Attentional Recurrent Relational Network-LSTM(ARRN-LSTM) to simultaneously model spatial configurations and temporal dynamics in skeletons for action recognition. The spatial patterns embedded in a single skeleton are learned by a Recurrent Relational Network, followed by a multi-layer LSTM to extract temporal features in the skeleton sequences. To exploit the complementarity between different geometries in the skeleton for sufficient relational modeling, we design a two-stream architecture to learn the relationship among joints and explore the underlying patterns among lines simultaneously. We also introduce an adaptive attentional module for focusing on potential discriminative parts of the skeleton towards a certain action. Extensive experiments are performed on several popular action recognition datasets and the results show that the proposed approach achieves competitive results with the state-of-the-art methods.

연구 동기 및 목표

예측 전처리 과정에서 발생하는 정보 손실로 인해 기존의 CNN과 RNN이 뼈대 데이터의 구조적 관계를 포착하는 데 한계를 가짐을 해결하기 위해.
명시적인 관절 및 선 기반 공간적 구성 요소를 학습하여 인간 뼈대의 상관계관계 모델링을 향상시키기 위해.
다중층 LSTM와 결합된 순환 상관계망을 통해 시간적 특징 추출을 향상시키기 위해.
적응형 주의 모듈을 통해 구분 가능한 신체 부위에 동적으로 초점을 맞추기 위해.
표준 뼈대 기반 행동 인식 벤치마크에서 최신 기술 수준의 성능을 달성하기 위해.

제안 방법

단일 뼈대 프레임 내의 관절 간 공간적 관계를 모델링하기 위해 순환 상관계망(RRN)을 사용하여 구조적 구성 요소를 캡처한다.
이중 스트림 아키텍처가 동시에 관절 간 관계와 연결된 관절로 이루어진 선 간 관계를 학습하여 기하학적 보완성을 활용한다.
다중층 장기 단기 기억(LSTM) 네트워크가 순차적 뼈대 데이터를 처리하여 시간적 동역학을 추출한다.
적응형 주의 모듈이 특정 행동에 관련된 중요한 신체 부위를 강조하여 특징의 구분 능력을 향상시킨다.
공간적 상관계속 특징과 시간적 시퀀스를 종단 간 최적화를 위해 통합한다.

실험 결과

연구 질문

RQ1기존의 CNN/RNN 파ip라인에서 손실되는 구조적 정보를 유지함으로써 상관계귀 유추 편향이 뼈대 기반 행동 인식 성능 향상에 기여할 수 있는가?
RQ2뼈대에서 관절과 선의 관계를 동시에 모델링하면 행동 인식을 위한 특징 표현이 어떻게 향상되는가?
RQ3적응형 주의 메커니즘이 구분 가능한 신체 부위에 초점을 맞춤으로써 성능 향상에 어느 정도 기여하는가?
RQ4관절과 선이라는 서로 다른 기하학적 구조를 처리하는 이중 스트림 아키텍처가 단일 스트림 방법보다 더 나은 상관계관계 모델링을 제공하는가?
RQ5표준 뼈대 기반 행동 인식 벤치마크에서 ARRN-LSTM은 최신 기술 수준의 방법들과 비교해 어떻게 성능을 내는가?

주요 결과

제안된 ARRN-LSTM은 다양한 벤치마크 데이터셋에서 경쟁적인 성능을 보이며 최신 기술 수준의 결과를 달성한다.
이중 스트림 아키텍처는 관절과 선으로부터 유래한 보완적인 기하학적 패턴을 캡처함으로써 상관계관계 모델링을 크게 향상시킨다.
적응형 주의 모듈은 행동 관련 신체 부위에 동적으로 초점을 맞춤으로써 인식 정확도를 향상시킨다.
공간적 모델링을 위한 RRN과 시간적 모델링을 위한 다중층 LSTM의 통합은 뛰어난 특징 표현을 이끈다.
다양한 행동 인식 시나리오에서 광범위한 실험을 통해 제안된 방법의 효과성을 확인할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.