[논문 리뷰] Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
MS-G3D를 소개하며, G3D를 포함하는 교차 시공간 모델링을 통합하는 분리된 다중 스케일 공간-시간 그래프 컨볼루션 접근 방식으로 NTU RGB+D 60/120 및 Kinetics Skeleton 400에서 최첨단 결과를 달성한다.
Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multi-scale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.
연구 동기 및 목표
- 관절 그래프에서 장거리 및 다중 스케일 컨텍스트를 포착하여 견고한 골격 기반 동작 인식을 촉진한다.
- 바이어스를 제거하고 길고 먼 관절 관계를 강화하기 위해 분리된 다중 스케일 집계를 제안한다.
- 직접적인 교차 시공간 정보 흐름을 가능하게 하는 통합 공간-시간 G3D 연산자를 도입한다.
- 이 아이디어를 MS-G3D로 결합하여 대규모 데이터셋에서 이전 최첨단을 능가한다.
제안 방법
- 가까운 노드의 바이어스를 피하기 위해 기존 A_(k) 매트릭스로 k-홉 이웃에서의 분리된 다중 스케일 집계.
- G3D: 타일링된 시공간 그래프를 가로지르는 교차 시공간 건너뛰기 연결을 가진 통합 공간-시간 그래프 컨볼루션.
- 다중 스케일 G3D(MS-G3D): 분리된 시공간 집계와 교차 시공간 연결 및 확장된 시간 창을 결합한 방법.
- 스케일별 맥락 및 환경에 따라 에지 영향을 동적으로 조정하는 적응형 그래프 잔류(mask) A^res.
- 관절과 뼈대를 활용한 이중 흐름(two-stream) 융합으로 판별력을 높인다.
- 다중 스케일 TCN 유사 가지와 병목 설계를 통해 시간 모델링을 강화한다.
실험 결과
연구 질문
- RQ1분리된 다중 스케일 그래프 집계가 골격 그래프에서 길게 흐르는 관절 관계 모델링을 어떻게 개선할 수 있는가?
- RQ2직교 교차 시공간 정보 흐름을 가능하게 하는 통합 공간-시간 그래프 컨볼루션(G3D)이 있을 수 있는가?
- RQ3분리된 집계와 G3D를 결합한 MS-G3D가 대규모 골격 데이터셋에서 더 나은 동작 인식 성능을 보이는가?
- RQ4골격 기반 동작 인식을 위해 교차 시공간 간선과 다중 스케일 시간 모델링의 이점은 무엇인가?
주요 결과
- MS-G3D는 NTU RGB+D 60, NTU RGB+D 120, 및 Kinetics Skeleton 400에서 이전의 최첨단 방법을 능가한다.
- 분리된 다중 스케일 집계는 더 단순한 인접성 운용에 비해 특히 큰 스케일(K up to 12)에서 상당한 향상을 제공한다.
- G3D는 교차 시공간 학습을 향상시키며, 분리된 집계와 결합될 때 강력한 다중 스케일 공간-시간 특징을 제공한다.
- MS-G3D는 데이터셋 전반에 걸쳐 경쟁력 있는 혹은 선두를 차지하는 정확도를 달성한다: NTU RGB+D 60 (X-Sub 91.5%, X-View 96.2%), NTU RGB+D 120 (X-Sub 86.9%, X-Set 88.4%), 및 Kinetics Skeleton 400 (Top-1 38.0%, Top-5 60.9%).
- 적응형 그래프 잔류 마스크와 뼈-관절 이중 스트림 융합이 성능을 더욱 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.