QUICK REVIEW

[논문 리뷰] Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action Recognition

Lei Shi, Yifan Zhang|arXiv (Cornell University)|2020. 07. 07.

Human Pose and Action Recognition참고 문헌 32인용 수 27

한 줄 요약

이 논문은 수작업으로 구성된 그래프 구조나 순회 규칙에 의존하지 않고, 자기주의 주의 메커니즘을 활용하는 분리된 공간-시간 주의망(DSTA-Net)을 제안한다. 공간과 시간 주의를 분리함으로써 별도의 위치 인코딩을 적용하고, 공간 전역 정규화를 도입하여, SHREC에서 97.0%의 정확도와 NTU-120에서 86.6%의 정확도를 기록하며 네 가지 벤치마크 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Dynamic skeletal data, represented as the 2D/3D coordinates of human joints, has been widely studied for human action recognition due to its high-level semantic information and environmental robustness. However, previous methods heavily rely on designing hand-crafted traversal rules or graph topologies to draw dependencies between the joints, which are limited in performance and generalizability. In this work, we present a novel decoupled spatial-temporal attention network(DSTA-Net) for skeleton-based action recognition. It involves solely the attention blocks, allowing for modeling spatial-temporal dependencies between joints without the requirement of knowing their positions or mutual connections. Specifically, to meet the specific requirements of the skeletal data, three techniques are proposed for building attention blocks, namely, spatial-temporal attention decoupling, decoupled position encoding and spatial global regularization. Besides, from the data aspect, we introduce a skeletal data decoupling technique to emphasize the specific characteristics of space/time and different motion scales, resulting in a more comprehensive understanding of the human actions.To test the effectiveness of the proposed method, extensive experiments are conducted on four challenging datasets for skeleton-based gesture and action recognition, namely, SHREC, DHG, NTU-60 and NTU-120, where DSTA-Net achieves state-of-the-art performance on all of them.

연구 동기 및 목표

기존 골격 기반 행동 인식 방법에서 수작업으로 구성된 그래프 구조나 순회 규칙의 한계를 해결하기 위해.
사전 구조적 가정 없이 골격 시퀀스의 공간적 및 시간적 종속성을 종단 간 모델링할 수 있도록 하기 위해.
공간적 의미 정렬 및 운동 스케일 민감성과 같은 도메인 특화 인덕티브 바이어스를 통합하여 모델의 일반화 능력과 성능을 향상시키기 위해.
기존 방법들을 능가하는 통합된 순수 주의 기반 프레임워크를 제공하여 다양한 행동 인식 벤치마크에서 성능을 높이기 위해.

제안 방법

자기주의 주의 메커니즘을 공간 및 시간 주의 블록으로 분리하여 공간적 및 시간적 종속성을 별도로 모델링하면서도 상호작용을 유지한다.
공간 및 시간 차원에 대해 분리된 위치 인코딩을 도입하여 관계나 순서에 대한 가정 없이 위치 인식 능력을 제공한다.
고정된 신체 관절의 의미 역할을 활용하여 서로 다른 샘플 간 일관된 주의 패턴을 강제함으로써 공간 전역 정규화를 적용한다.
입력을 공간(운동에 영향을 주지 않는) 및 시간(운동에 영향을 주는) 스트림으로 분리하는 골격 데이터 분리 기법을 활용하여 별도의 행동 특성에 집중된 학습을 가능하게 한다.
공간, 시간, 느린 시간, 빠른 시간의 네 개 스트림에서 특징을 조합하여 초기 또는 후기 융합을 통해 다중 척도의 운동 및 형태 패턴을 포착한다.
RNN, CNN, GCN을 사용하지 않고, 학습된 쿼리, 키, 밸류를 갖는 멀티헤드 자기주의 주의에만 의존하는 순수 주의 기반 아키텍처를 사용한다.

실험 결과

연구 질문

RQ1수작업으로 구성된 구조에 의존하지 않고도 순수 자기주의 주의 메커니즘이 그래프 기반 또는 RNN 기반 모델보다 골격 기반 행동 인식에서 승리할 수 있는가?
RQ2골격 시퀀스의 공간적 및 시간적 종속성을 어떻게 별도로 효과적으로 모델링할 수 있으며, 이로써 그들 각자의 의미를 유지할 수 있는가?
RQ3사전에 정의된 관절 순서나 구조 없이 분리된 위치 인코딩이 주의 모델링에 얼마나 기여하는가?
RQ4고정된 관절 의미를 갖는 샘플 간 일관된 주의 패턴을 강제함으로써 공간 전역 정규화가 일반화 능력을 향상시킬 수 있는가?
RQ5골격 데이터를 공간 및 시간 모odalities로 분리함으로써 다양한 행동 데이터셋에서 특징 학습 및 인식 정확도가 향상되는가?

주요 결과

SHREC 14자세 데이터셋에서 DSTA-Net은 97.0%의 정확도를 기록하여 이전 SOTA인 94.4%보다 2.6%p 높다.
DHG 28자세 데이터셋에서 DSTA-Net은 93.9%의 정확도를 기록하여 이전 최신 기술 수준보다 3.2%p 높다.
NTU-60에서 DSTA-Net은 교차-개인 기준으로 91.5%, 교차-뷰 기준으로 96.4%의 정확도를 기록하여 이전 SOTA보다 각각 1.6%p와 0.3%p 높다.
최근 공개된 NTU-120 데이터셋에서 DSTA-Net은 교차-개인 기준으로 86.6%, 교차-설정 기준으로 89.0%의 정확도를 기록하여 새로운 SOTA 기준을 설정했다.
제거 실험 결과, 네 스트림 융합(spatial, temporal, slow-temporal, fast-temporal)이 상호 보완적인 개선 효과를 제공하며, 공간 스트림은 형태 기반 행동에서, 시간 스트림은 운동 기반 행동에서 뛰어난 성능을 보였다.
각 클래스 정확도의 시각화 결과, 공간 스트림은 '핀치'와 '그랩'과 같은 행동에서, 시간 스트림은 '스와이프'와 '헤이블'과 같은 행동에서 특화되어 있음을 확인하여 모odalitiy 보완성이 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.