[논문 리뷰] Multi-Scale Spatial Temporal Graph Convolutional Network for Skeleton-Based Action Recognition
MST-GCN을 제안하고 멀티스케일 공간( MS-GC ) 및 시간( MT-GC ) 그래프 컨볼루션으로 큰 수용영역을 가능하게 하여 골격 기반 행동 인식의 단거리 및 장거리 공간-시간 의존성을 포착합니다. NTU RGB+D, NTU-120 RGB+D, 및 Kinetics-Skeleton에서 비교 매개변수로 기초 모델보다 성능이 우수합니다.
Graph convolutional networks have been widely used for skeleton-based action recognition due to their excellent modeling ability of non-Euclidean data. As the graph convolution is a local operation, it can only utilize the short-range joint dependencies and short-term trajectory but fails to directly model the distant joints relations and long-range temporal information that are vital to distinguishing various actions. To solve this problem, we present a multi-scale spatial graph convolution (MS-GC) module and a multi-scale temporal graph convolution (MT-GC) module to enrich the receptive field of the model in spatial and temporal dimensions. Concretely, the MS-GC and MT-GC modules decompose the corresponding local graph convolution into a set of sub-graph convolution, forming a hierarchical residual architecture. Without introducing additional parameters, the features will be processed with a series of sub-graph convolutions, and each node could complete multiple spatial and temporal aggregations with its neighborhoods. The final equivalent receptive field is accordingly enlarged, which is capable of capturing both short- and long-range dependencies in spatial and temporal domains. By coupling these two modules as a basic block, we further propose a multi-scale spatial temporal graph convolutional network (MST-GCN), which stacks multiple blocks to learn effective motion representations for action recognition. The proposed MST-GCN achieves remarkable performance on three challenging benchmark datasets, NTU RGB+D, NTU-120 RGB+D and Kinetics-Skeleton, for skeleton-based action recognition.
연구 동기 및 목표
- 골격 기반 행동 인식이 단거리와 장거리 공간 의존성 및 시간 역학을 모두 필요로 한다는 동기를 제시합니다.
- 수용영역을 확장하면서 매개변수 추가 없이 다중 스케일 공간 및 시간 그래프 컨볼루션 모듈을 도입합니다.
- MS-GC와 MT-GC를 MST-GCN 블록으로 결합하고, 동작 표현의 end-to-end 학습을 위해 이를 쌓습니다.
- 여러 벤치마크에서 NTU RGB+D, NTU-120 RGB+D, 및 Kinetics-Skeleton 데이터셋에 대해 효과를 입증합니다.
제안 방법
- 스켈레톤을 노드로, 골격/시간 연결을 엣지로 가지는 시공간 그래프로 정의합니다.
- 전통적인 단일 스케일 그래프 컨볼루션을 대체하여 MS-GC를 사용하고, 계층적 잔차 레이아웃으로 서브-그래프 컨볼루션을 연결시켜 공간 수용영역을 확장합니다.
- MS-GC를 시간 영역으로 확장하여 MT-GC를 구성하고, 계층적 잔차 유사성 및 다중 스케일 시간 집계를 이용해 장기 시간 역학을 포착합니다.
- MS-GC와 MT-GC를 MST-GCN 블록으로 결합하고 블록을 쌓아 전체 MST-GCN 네트워크를 구성합니다. 블록 내에서 공간 및 시간 서브 모듈을 연결하는 대안 STR-GC 변형도 제공합니다.
- 두 가지 구현 변형을 제공합니다: (a) ST-GCN 블록 대신 MS-GC + MT-GC를 사용, (b) 공간-시간 잔차 GC(STR-GC)로 블록 내 업데이트를 교대합니다.
실험 결과
연구 질문
- RQ1다양한 스케일의 공간 그래프 컨볼루션이 국소 이웃을 넘어 멀리 떨어진 관절 관계를 캡처할 수 있는가?
- RQ2다양한 스케일의 시간 그래프 컨볼루션이 시간 수용영역을 확장하여 장기 역학을 효과적으로 모델링할 수 있는가?
- RQ3MS-GC와 MT-GC 모듈이 ST-GCN 기준의 성능을 개선하기 위해 서로 보완하는가?
- RQ4MST-GCN이 NTU RGB+D, NTU-120 RGB+D, 및 Kinetics-Skeleton 데이터셋에서 이전보다 일반화 가능하고 최첨단 결과를 달성하는가?
주요 결과
| 방법 | X-view (%) | X-sub (%) |
|---|---|---|
| HBRNN | 64.0 | 59.1 |
| P-LSTM | 67.3 | 60.7 |
| TCN | 83.1 | 74.3 |
| VA-LSTM | 87.7 | 79.2 |
| ST-GCN | 88.3 | 81.5 |
| AS-GCN | 94.2 | 86.8 |
| 2s AGC-LSTM | 95.0 | 89.2 |
| 2s AGCN | 95.1 | 88.5 |
| 2s NAS-GCN | 95.7 | 89.4 |
| 4s DGNN | 96.1 | 89.9 |
| 4s MS-AAGCN | 96.2 | 90.0 |
| 2s MS-G3D | 96.2 | 91.5 |
| 4s Shift-GCN | 96.5 | 90.7 |
| Js MST-GCN (ours) | 95.1 | 89.0 |
| Bs MST-GCN (ours) | 95.2 | 89.5 |
| 2s MST-GCN (ours) | 96.4 | 91.1 |
| 4s MST-GCN (ours) | 96.6 | 91.5 |
- MS-GC는 로컬 및 먼 관절 의존성을 모두 포착하여 공간 특징 표현을 개선하고, 분할 수(s)가 증가할수록 성능 향상이 커진다.
- MT-GC는 시간 수용영역을 확장하고, s가 증가할수록 ST-GCN 대비 일관된 정확도 향상을 보인다.
- MS-GC와 MT-GC는 상호 보완적이며, 전체 MST-GCN 조합은 모듈 하나만 사용할 때보다 더 높은 정확도를 달성하며, 비슷한 매개변수 예산에서 눈에 띄는 이점을 제공한다.
- NTU RGB+D, NTU-120 RGB+D, 및 Kinetics-Skeleton에서 MST-GCN은 여러 벤치마크에서 Top-1(보고된 경우 Top-5) 정확도 측면에서 경쟁력 있거나 최첨단을 달성한다.
- 기존 ST-GCN과 비교할 때, MST-GCN은 매개변수가 비슷한 경우 최대 약 1.8% 포인트의 개선을, 대략 1/3의 매개변수로도 최대 0.9% 포인트의 개선을 달성할 수 있다(수치 비교 결과).
- 시각화 결과 MST-GCN은 동작 관련 관절에 집중하고 장거리 의존성(예: 걷는 동안 전신 조정)을 포착할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.