QUICK REVIEW

[논문 리뷰] STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition

N. Long|arXiv (Cornell University)|2023. 12. 06.

Human Pose and Action Recognition인용 수 8

한 줄 요약

STEP CATFormer은 CTR-GCN 기반 특징과 함께 바디-파트 교차 어텐션 및 시계열 트랜스포머를 통합하여 뼈대 기반 행동 인식 벤치마크 NTU RGB+D 60/120에서 최신 성능을 달성합니다.

ABSTRACT

Graph convolutional networks (GCNs) have been widely used and achieved remarkable results in skeleton-based action recognition. We think the key to skeleton-based action recognition is a skeleton hanging in frames, so we focus on how the Graph Convolutional Convolution networks learn different topologies and effectively aggregate joint features in the global temporal and local temporal. In this work, we propose three Channel-wise Tolopogy Graph Convolution based on Channel-wise Topology Refinement Graph Convolution (CTR-GCN). Combining CTR-GCN with two joint cross-attention modules can capture the upper-lower body part and hand-foot relationship skeleton features. After that, to capture features of human skeletons changing in frames we design the Temporal Attention Transformers to extract skeletons effectively. The Temporal Attention Transformers can learn the temporal features of human skeleton sequences. Finally, we fuse the temporal features output scale with MLP and classification. We develop a powerful graph convolutional network named Spatial Temporal Effective Body-part Cross Attention Transformer which notably high-performance on the NTU RGB+D, NTU RGB+D 120 datasets. Our code and models are available at https://github.com/maclong01/STEP-CATFormer

연구 동기 및 목표

관절과 신체 부위 간의 동적이고 구별력 있는 공간적 및 시간적 관계를 학습함으로써 뼈대 기반 행동 인식을 향상시키려는 동기를 제시한다.
CTR-GCN 기반의 동적 채널 토폴로지와 트랜스포머 기반의 시간적 모델링을 결합한 하이브리드 아키텍처를 제안한다.
상반신-하반신 바디 파트 및 손-발 관계를 포착하고 안정적인 동작 분류를 위해 시간적 특성을 효과적으로 융합한다.
백본 인코더와 STEP-CATFormer를 분리하여 일반화를 입증하고 모델 전반에 걸친 일관된 이득을 보인다.

제안 방법

CTR-GCN을 확장하여 두 개의 교차 어텐션 모듈로 공간 차원에서 바디 파트 간 관계를 모델링한다.
대-소 차원 분기 간의 교차 어텐션을 갖는 단일 바디 파트 교차 어텐션(SBCA) 및 다중 바디 파트 교차 어텐션(MBCA) 블록을 제안한다.
Super Dynamic Temporal Attention (SDTA)를 도입하여 시간적 어텐션 트랜스포머를 통해 시간적 뼈대 특징을 추출하고 융합한다.
최종 분류를 위해 Temporal Fusion 메커니즘과 Global Average Pooling이 적용된 MLP를 사용한다.
STEP CATFormer 경로 내에서 SBCA, MBCA, SDTA, MLP의 네 가지 분기 융합 전략을 채택하여 최종 클래스 로짓을 생성한다.

실험 결과

연구 질문

RQ1동적 바디 파트 교차 어텐션과 시계열 트랜스포머가 CTR-GCN 베이스라인을 넘어 뼈대 기반 행동 인식을 개선할 수 있는가?
RQ2관절을 바디 파트(손/다리 대 손목/발목 등)로 분할하는 것이 인식 성능에 어떤 영향을 미치는가?
RQ3SBCA, MBCA, SDTA 구성 요소가 전체 정확도와 백본 간 일반화에 기여하는 바는 무엇인가?
RQ4다른 백본(ST-GCN, CTR-GCN, LST 등)에 적용해도 추가 추론 비용 없이 STEP-CATFormer가 일관된 이득을 제공하는가?

주요 결과

STEP-CATFormer는 NTU RGB+D 60/120 벤치마크에서 CTR-GCN 베이스라인 대비 향상을 보인다.
육부 교차 어텐션을 사용하면 X-sub 실험에서 최적 성능을 얻는다(일부 구성에서 86.0%).
SBCA, MBCA, SDTA 및 질의-클래스 분류기를 점진적으로 통합하면 CTR-GCN 베이스라인(84.6%) 대비 X-sub 평가에서 86.0%까지 정확도가 상승한다.
LST 백본을 사용하는 STEP-CATFormer는 보고된 앙상블에서 NTU-60 X-sub 93.2%, NTU-60 X-view 97.3%, NTU-120 X-sub 90.0%, NTU-120 X-set 91.2%를 달성한다.
STEP-CATFormer는 ST-GCN, CTR-베이스라인, CTR-GCN, LST 등 다중 백본에 걸쳐 일관되게 향상을 보이며 이득은 0.4%에서 2.0% 사이이고 추가 추론 비용은 없다.
NTU RGB+D 120에서 STEP-CATFormer는 대부분의 벤치마크에서 최첨단 트랜스포머 기반 방법을 능가하며 특히 cross-subject 및 cross-set 평가에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.