QUICK REVIEW

[논문 리뷰] Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition

Helei Qiu, Biao Hou|arXiv (Cornell University)|2022. 01. 08.

Human Pose and Action Recognition인용 수 38

한 줄 요약

논문은 STTFormer를 소개한다. 이는 관절의 짧은 시공 간 튜플을 인코딩하여 이웃 프레임 간의 교차 관절 상관관계를 포착하고, 프레임 간 집계 모듈로 비슷한 동작을 구분하며 NTU RGB+D 및 NTU RGB+D 120 데이터셋에서 최첨단 결과를 달성하는 트랜스포머 기반 모델이다.

ABSTRACT

Capturing the dependencies between joints is critical in skeleton-based action recognition task. Transformer shows great potential to model the correlation of important joints. However, the existing Transformer-based methods cannot capture the correlation of different joints between frames, which the correlation is very useful since different body parts (such as the arms and legs in "long jump") between adjacent frames move together. Focus on this problem, A novel spatio-temporal tuples Transformer (STTFormer) method is proposed. The skeleton sequence is divided into several parts, and several consecutive frames contained in each part are encoded. And then a spatio-temporal tuples self-attention module is proposed to capture the relationship of different joints in consecutive frames. In addition, a feature aggregation module is introduced between non-adjacent frames to enhance the ability to distinguish similar actions. Compared with the state-of-the-art methods, our method achieves better performance on two large-scale datasets.

연구 동기 및 목표

스켈레톤 데이터에서 연속 프레임 간 서로 다른 관절의 상관관계를 모델링하는 기존 트랜스포머의 한계를 동기화하고 해결하려 한다.
연속 프레임을 납작하게 인코딩하고 인코딩하는 시공-시간 튜플 인코딩 전략을 제안한다.
STTFormer를 시공-시간 튜플 어텐션(STTA) 및 프레임 간 특성 집계(IFFA)로 개발한다.
위상 인코딩 및 다중 모드 데이터를 도입하여 인식 정확도를 높인다.
대규모 골격 동작 데이터셋 NTU RGB+D 및 NTU RGB+D 120에서 평가하고 구성요소를 검증하기 위한 차등 분석을 수행한다.

제안 방법

골격 시퀀스의 비중복 구간(튜플)으로 나누고 각 튜플을 연속 프레임Across의 억법으로 납작하게 만들고 합성층으로 인코딩한다.
시공-시간 튜플 트랜스포머(STTFormer): 튜플 내 관절 간 관계를 모델링하는 STTA 모듈; 1x1 컨볼루션과 이후 1xk1 컨볼루션이 포함된 다중-헤드 셀프 어텐션.
프레임 간 특성 집계(IFFA): 튜플 간 부분 동작을 통합하기 위한 k2 x 1 시간 컨볼루션.
위상 인코딩: 튜플 내 관절과 프레임을 구분하기 위한 사인-코사인 인코딩.
다중 모드 데이터 융합: 최종 예측을 위해 관절(joint), 뼈(bone), 관절 동작(joint motion) 모드를 융합.
SGD, 교차 엔트로피 손실 및 표준 데이터 패딩 120 프레임으로 끝-to-end 학습.

실험 결과

연구 질문

RQ1연속 프레임 간 서로 다른 관절 간의 상관관계를 모델링하는 것이 골격 기반 동작 인식을 향상시킬 수 있는가?
RQ2시공-시간 튜플 인코딩이 프레임 간 관절 관계를 포착하면서 계산 비용을 줄일 수 있는가?
RQ3프레임 간 집계가 부분 동작을 모아 유사한 동작을 구분하는 데 효과적인가?
RQ4위상 인코딩과 다중 모드 데이터가 STTFormer의 성능에 어떤 영향을 주는가?

주요 결과

Method	NTU RGB+D X-Sub (%)	NTU RGB+D X-View (%)	NTU RGB+D 120 X-Sub (%)	NTU RGB+D 120 X-Set (%)
MTCNN	81.1	87.4	61.2	63.3
IndRNN	81.8	88.0	-	-
HCN	86.5	91.1	-	-
ST-GCN	81.5	88.3	-	-
2s-AGCN	88.5	95.1	82.9	84.9
DGNN	89.9	96.1	-	-
Shift-GCN	90.7	96.5	85.9	87.6
Dynamic-GCN	91.5	96.0	85.9	87.6
MS-G3D	91.5	96.2	86.9	88.4
MST-GCN	91.5	96.6	87.5	88.8
ST-TR	89.9	96.1	-	-
DSTA-Net	91.5	96.4	86.6	89.0
STTFormer(Ours)	92.3	96.5	88.3	89.2

STTFormer는 NTU RGB+D 및 NTU RGB+D 120 골격 벤치마크에서 최첨단 결과를 달성한다(예: NTU RGB+D에서 92.3% X-Sub 및 96.5% X-View; NTU RGB+D 120에서 88.3% X-Sub 및 89.2% X-Set).
위상 인코딩 제거 시 정확도가 낮아지는 차이가 나타난다(STTFormer without PE: 89.3% X-Sub, 91.8% X-View; with PE: 89.9% X-Sub, 94.3% X-View).
IFFA를 제거하면 성능이 크게 저하된다(STTFormer without IFFA: 84.5% X-Sub, 88.1% X-View).
튜플당 프레임 수 n=6이 최상의 결과를 낳는다(n=1: 82.9% X-Sub, 86.0% X-View; n=6: 86.2% X-Sub, 91.3% X-View).
다중 모드 데이터 융합(joint, bone, joint motion)은 단일 모드보다 정확도를 향상시킨다(융합: 92.3% X-Sub, 96.5% X-View; 88.3% X-Sub, 89.2% X-Set on 120).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.