QUICK REVIEW

[논문 리뷰] Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Sijie Yan, Yuanjun Xiong|arXiv (Cornell University)|2018. 01. 23.

Human Pose and Action Recognition참고 문헌 43인용 수 596

한 줄 요약

ST-GCN은 골격 시퀀스에 대해 시공간 그래프 컨볼루션을 학습하여 동작을 인식하며, Kinetics와 NTU-RGB+D에서 손으로 설계된 부분 방법(hand-crafted-part methods) 대비 최첨단 결과를 달성합니다.

ABSTRACT

Dynamics of human body skeletons convey significant information for human action recognition. Conventional approaches for modeling skeletons usually rely on hand-crafted parts or traversal rules, thus resulting in limited expressive power and difficulties of generalization. In this work, we propose a novel model of dynamic skeletons called Spatial-Temporal Graph Convolutional Networks (ST-GCN), which moves beyond the limitations of previous methods by automatically learning both the spatial and temporal patterns from data. This formulation not only leads to greater expressive power but also stronger generalization capability. On two large datasets, Kinetics and NTU-RGBD, it achieves substantial improvements over mainstream methods.

연구 동기 및 목표

조명 변화 및 장면 변화에 대해 강한 강건성을 지닌 모듈로서 골격 기반 동작 인식을 제시한다.
손으로 설계된 부분에 의존하기보다 데이터에서 공간적/시간적 패턴을 자동으로 학습하는 일반적인 그래프 기반 모델을 개발한다.
골격 그래프 시퀀스에서 작동하도록 Spatial-Temporal Graph Convolutional Network(ST-GCN)를 제안한다.
신체 부위 및 동역학 모델링을 개선하기 위해 파티션 전략과 에지 가중치 학습을 탐구한다.
이전 방법에 비해 대규모 데이터셋에서 우수한 성능을 입증한다.

제안 방법

골격 시퀀스를 관절을 노드로 하고 프레임 내/프레임 간 간선으로 구성된 시공간 그래프로 표현한다.
부분 집합으로 분할된 이웃 집합을 가진 시공간 그래프 컨볼루션을 적용해 국소 관절 상호 작용과 시간적 동역학을 모델링한다.
공유 가중치를 갖는 다수의 ST-GCN 층을 사용하고, 그 뒤에 글로벌 풀링과 SoftMax 분류기를 적용한다.
이웃 간의 에지 가중치 공유를 정의하기 위해 파티션 전략(uni-labeling, distance, spatial configuration)을 도입한다.
다른 관절/에지의 기여를 가중하기 위해 학습 가능한 에지 중요도 마스크를 도입한다.
SGD로 엔드투엔드 학습; 데이터 증강(랜덤 이동) 및 Kinetics에서의 랜덤 프래그먼트 샘플링을 사용한다.

실험 결과

연구 질문

RQ1ST-GCN이 데이터로부터 공간-시간 패턴을 직접 학습하여 손으로 설계된 부분 골격 방법보다 성능이 우수할 수 있는가?
RQ2다른 이웃 파티션 전략이 동작 인식 성능에 어떤 영향을 미치는가?
RQ3학습 가능한 에지 중요도 가중치를 포함하는 것이 정확도를 향상시키는가?
RQ4다양한 관절 수와 그래프 구조를 가진 데이터셋(2D OpenPose vs 3D Kinect 데이터)에서도 ST-GCN 접근법이 일반화 가능한가?

주요 결과

설정	Top-1	Top-5
Baseline TCN	20.3%	40.0%
Local Convolution	22.0%	43.2%
Uni-labeling	19.3%	37.4%
Distance partitioning*	23.9%	44.9%
Distance Partitioning	29.1%	51.3%
Spatial Configuration	29.9%	52.2%
ST-GCN + Imp.	30.7%	52.8%

Kinetics에서 공간 구성 파티션 및 에지 가중치를 적용한 ST-GCN은 Top-1 30.7%, Top-5 52.8%의 정확도를 달성하여 기준선 및 이전 골격 기반 방법을 능가한다.
여러 부분집합을 이용한 파티션 전략이 uni-labeling보다 우수하며, 공간 구성(partitioning)이 가장 큰 이득을 제공한다.
학습 가능한 에지 중요도 가중치를 추가하면 추가 개선이 생기며 (~1% 수준의 Top-1/Top-5).
NTU-RGB+D에서 ST-GCN은 81.5%(X-Sub) 및 88.3%(X-View) Top-1 정확도를 달성하여 제약 데이터에서 기존 최첨단 방법을 능가한다.
ST-GCN은 무제약 데이터셋과 제약 데이터셋 모두에서 RGB/flow 또는 손으로 설계된 특징을 사용하는 방법보다 골격 기반 동작 인식에서 현저히 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.