[논문 리뷰] An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
이 논문은 AGC-LSTM을 제안합니다. 이는 공간-시간 특징과 그들의 공발현을 포착하는 골격 기반 동작 인식을 위한 주의 강화 그래프 합성곱 LSTM 네트워크로, 시간적 계층 구조를 이용해 시간 수용장과 계산을 향상시키고 NTU RGB+D 및 Northwestern-UCLA 데이터셋에서 최첨단 결과를 달성합니다.
Skeleton-based action recognition is an important task that requires the adequate understanding of movement characteristics of a human action from the given skeleton sequence. Recent studies have shown that exploring spatial and temporal features of the skeleton sequence is vital for this task. Nevertheless, how to effectively extract discriminative spatial and temporal features is still a challenging problem. In this paper, we propose a novel Attention Enhanced Graph Convolutional LSTM Network (AGC-LSTM) for human action recognition from skeleton data. The proposed AGC-LSTM can not only capture discriminative features in spatial configuration and temporal dynamics but also explore the co-occurrence relationship between spatial and temporal domains. We also present a temporal hierarchical architecture to increases temporal receptive fields of the top AGC-LSTM layer, which boosts the ability to learn the high-level semantic representation and significantly reduces the computation cost. Furthermore, to select discriminative spatial information, the attention mechanism is employed to enhance information of key joints in each AGC-LSTM layer. Experimental results on two datasets are provided: NTU RGB+D dataset and Northwestern-UCLA dataset. The comparison results demonstrate the effectiveness of our approach and show that our approach outperforms the state-of-the-art methods on both datasets.
연구 동기 및 목표
- 공간 구성과 시간 역학을 활용한 강인한 골격 기반 동작 인식을 동기화합니다.
- 공간 도메인과 시간 도메인 간의 공발현을 포착하는 통합 모델을 제안합니다.
- 시간 단계 간의 판별적 관절을 강조하기 위한 주의 메커니즘을 도입합니다.
- 시간 수용장을 확장하고 계산을 감소시키기 위한 시간적 계층 구조를 도입합니다.
- 표준 벤치마크(NTU RGB+D 및 Northwestern-UCLA)에서 최첨단 성능을 입증합니다.
제안 방법
- 각 손목 좌표를 관절별 선형 계층으로 공간 특징으로 매핑합니다.
- 프레임 차이 특징과 함께 관절 위치 특징을 연결하고 공유 LSTM을 통해 규모를 정규화하여 보강 특징을 계산합니다.
- 그래프 합성곱을 사용하여 공간-시간 패턴을 포착하는 세 개의 AGC-LSTM 층으로 시퀀스를 모델링합니다.
- 각 시간 단계에서 핵심 관절을 강조하는 주의 네트워크를 적용하고 주의된 특징과 비주의된 특징을 혼합합니다.
- 시간적 평균 풀링을 도입하여 시간적 계층 구조를 생성하고 수용장을 증가시키며 계산을 줄입니다.
- 마지막 AGC-LSTM 층의 글로벌(모든 관절) 특징과 로컬(주의된 관절) 특징을 융합하여 분류합니다.
실험 결과
연구 질문
- RQ1그래프 기반 방법을 사용하여 골격 시퀀스로부터 효과적으로 구별 가능한 공간 및 시간 특징을 추출하는 방법은 무엇인가요?
- RQ2관절에 대한 주의 메커니즘이 동작 관련 공간 구성의 구분력을 향상시킬 수 있나요?
- RQ3시간적 계층 구조가 계산을 줄이면서도 고수준의 시공간 표현을 향상시키나요?
- RQ4관절 단위 및 부분 단위 모델링(그리고 이들의 결합)이 골격 기반 동작 인식에서 어떤 차이를 보이나요?
주요 결과
| 방법 | CV | CS | |
|---|---|---|---|
| HBRNN-L | 64.0 | 59.1 | |
| Part-aware LSTM | 70.3 | 62.9 | |
| Trust Gate ST-LSTM | 77.7 | 69.2 | |
| Two-stream RNN | 79.5 | 71.3 | |
| STA-LSTM | 81.2 | 73.4 | |
| Ensemble TS-LSTM | 81.3 | 74.6 | |
| Visualization CNN | 82.6 | 76.0 | |
| VA-LSTM | 87.6 | 79.4 | |
| ST-GCN | 88.3 | 81.5 | |
| SR-TSL | 92.4 | 84.8 | |
| HCN | 91.1 | 86.5 | |
| PB-GCN | 93.2 | 87.5 | |
| AGC-LSTM (Joint) | - | 93.5 | 87.5 |
| AGC-LSTM (Part) | - | 93.8 | 87.5 |
| AGC-LSTM (Joint&Part) | - | 95.0 | 89.2 |
- AGC-LSTM with attention은 NTU RGB+D에서 최첨단 정확도에 도달합니다(Joint/Part/Joint&Part: 93.5/93.8/95.0 CV, 87.5/87.5/89.2 CS) 및 Northwestern-UCLA에서 최첨단 성능(Joint/Part/Joint&Part: 93.3/?/? 보고 표).
- Joint- 레벨 및 Part- 레벨 변형 모두 최고 성능에 도달하며 Joint&Part 융합이 NTU RGB+D에서 최상의 결과를 제공합니다.
- ablations 분석에서 LSTM을 GC-LSTM으로 대체하고 시간 계층화를 추가하면 정확도가 크게 향상됩니다(예: GC-LSTM+TH 대 GC-LSTM, AGC-LSTM 대 GC-LSTM).
- 주의 임베딩은 층을 거치며 주요 관절(예: 팔꿈치, 손목, 손)을 점진적으로 강조합니다(주의 시각화를 통해 확인).
- 시간적 계층 구조는 시간 수용장을 증가시키고 정확도를 해치지 않으면서 계산을 줄입니다.
- 하이브리드 관절&부분 모델링은 단일 분기 변형보다 성능 향상을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.