QUICK REVIEW

[논문 리뷰] Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

Ziyu Liu, Hongwen Zhang|arXiv (Cornell University)|2020. 03. 31.

Human Pose and Action Recognition참고 문헌 53인용 수 89

한 줄 요약

MS-G3D를 소개하며, G3D를 포함하는 교차 시공간 모델링을 통합하는 분리된 다중 스케일 공간-시간 그래프 컨볼루션 접근 방식으로 NTU RGB+D 60/120 및 Kinetics Skeleton 400에서 최첨단 결과를 달성한다.

ABSTRACT

Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multi-scale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.

연구 동기 및 목표

관절 그래프에서 장거리 및 다중 스케일 컨텍스트를 포착하여 견고한 골격 기반 동작 인식을 촉진한다.
바이어스를 제거하고 길고 먼 관절 관계를 강화하기 위해 분리된 다중 스케일 집계를 제안한다.
직접적인 교차 시공간 정보 흐름을 가능하게 하는 통합 공간-시간 G3D 연산자를 도입한다.
이 아이디어를 MS-G3D로 결합하여 대규모 데이터셋에서 이전 최첨단을 능가한다.

제안 방법

가까운 노드의 바이어스를 피하기 위해 기존 A_(k) 매트릭스로 k-홉 이웃에서의 분리된 다중 스케일 집계.
G3D: 타일링된 시공간 그래프를 가로지르는 교차 시공간 건너뛰기 연결을 가진 통합 공간-시간 그래프 컨볼루션.
다중 스케일 G3D(MS-G3D): 분리된 시공간 집계와 교차 시공간 연결 및 확장된 시간 창을 결합한 방법.
스케일별 맥락 및 환경에 따라 에지 영향을 동적으로 조정하는 적응형 그래프 잔류(mask) A^res.
관절과 뼈대를 활용한 이중 흐름(two-stream) 융합으로 판별력을 높인다.
다중 스케일 TCN 유사 가지와 병목 설계를 통해 시간 모델링을 강화한다.

실험 결과

연구 질문

RQ1분리된 다중 스케일 그래프 집계가 골격 그래프에서 길게 흐르는 관절 관계 모델링을 어떻게 개선할 수 있는가?
RQ2직교 교차 시공간 정보 흐름을 가능하게 하는 통합 공간-시간 그래프 컨볼루션(G3D)이 있을 수 있는가?
RQ3분리된 집계와 G3D를 결합한 MS-G3D가 대규모 골격 데이터셋에서 더 나은 동작 인식 성능을 보이는가?
RQ4골격 기반 동작 인식을 위해 교차 시공간 간선과 다중 스케일 시간 모델링의 이점은 무엇인가?

주요 결과

MS-G3D는 NTU RGB+D 60, NTU RGB+D 120, 및 Kinetics Skeleton 400에서 이전의 최첨단 방법을 능가한다.
분리된 다중 스케일 집계는 더 단순한 인접성 운용에 비해 특히 큰 스케일(K up to 12)에서 상당한 향상을 제공한다.
G3D는 교차 시공간 학습을 향상시키며, 분리된 집계와 결합될 때 강력한 다중 스케일 공간-시간 특징을 제공한다.
MS-G3D는 데이터셋 전반에 걸쳐 경쟁력 있는 혹은 선두를 차지하는 정확도를 달성한다: NTU RGB+D 60 (X-Sub 91.5%, X-View 96.2%), NTU RGB+D 120 (X-Sub 86.9%, X-Set 88.4%), 및 Kinetics Skeleton 400 (Top-1 38.0%, Top-5 60.9%).
적응형 그래프 잔류 마스크와 뼈-관절 이중 스트림 융합이 성능을 더욱 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.