QUICK REVIEW

[논문 리뷰] Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition

Fanfan Ye, Shiliang Pu|arXiv (Cornell University)|2020. 07. 29.

Human Pose and Action Recognition참고 문헌 34인용 수 24

한 줄 요약

이 논문은 경량적인 Context-encoding Network(CeN)을 사용하여 동적이고 맥락이 풍부한 스켈레톤 상호 연결 구조를 학습하는 새로운 그래프 컬러지언넷(Dynamic GCN)을 제안한다. CeN은 모든 관절 간의 전역적 의존성을 포착하여 방향성 있는, 샘플별로 특화된 그래프를 생성함으로써 기존 방법 대비 2–4배 FLOPs를 감소시키면서도 동작 인식 정확도를 향상시킨다. 이는 NTU-RGB+D, NTU-RGB+D 120, 그리고 Skeleton-Kinetics 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Graph Convolutional Networks (GCNs) have attracted increasing interests for the task of skeleton-based action recognition. The key lies in the design of the graph structure, which encodes skeleton topology information. In this paper, we propose Dynamic GCN, in which a novel convolutional neural network named Contextencoding Network (CeN) is introduced to learn skeleton topology automatically. In particular, when learning the dependency between two joints, contextual features from the rest joints are incorporated in a global manner. CeN is extremely lightweight yet effective, and can be embedded into a graph convolutional layer. By stacking multiple CeN-enabled graph convolutional layers, we build Dynamic GCN. Notably, as a merit of CeN, dynamic graph topologies are constructed for different input samples as well as graph convolutional layers of various depths. Besides, three alternative context modeling architectures are well explored, which may serve as a guideline for future research on graph topology learning. CeN brings only ~7% extra FLOPs for the baseline model, and Dynamic GCN achieves better performance with $2 imes$~$4 imes$ fewer FLOPs than existing methods. By further combining static physical body connections and motion modalities, we achieve state-of-the-art performance on three large-scale benchmarks, namely NTU-RGB+D, NTU-RGB+D 120 and Skeleton-Kinetics.

연구 동기 및 목표

스켈레톤 기반 동작 인식을 위한 기존 GCN에서 고정된 정적 그래프 상호 연결 구조의 한계를 해결하기 위해.
지역적 쌍별 의존성 대신 모든 관절의 전역 맥락적 특징을 통합하여 상호 연결 구조 학습을 향상시키기 위해.
방향성 있는, 샘플별로 특화된 그래프를 생성할 수 있는 경량적이고 엔드 투 엔드로 학습 가능한 모듈을 개발하여 체계적 스켈레톤 역학 모델링을 향상시키기 위해.
기존 방법과 비교해 계산 비용을 줄이면서도 정확도를 유지하거나 향상시키기 위해.
수작업으로 구성된 또는 비국소 기반 유사도 메트릭에 의존하는 기존 방법의 유연하고 데이터 기반의 대안을 제공하기 위해.

제안 방법

전체 다른 관절들로부터의 전역 맥락을 사용하여 관절 간 의존성을 계산하는 경량적인 CNN 모듈인 Context-encoding Network(CeN)을 도입한다.
CeN은 맥락적 특징을 집계하여 비대칭(방향성 있는) 인접 행렬을 생성함으로써 동적이고 샘플에 특화된 그래프 상호 연결 구조를 가능하게 한다.
CeN 모듈은 각 그래프 컬러지언넷 레이어 내부에 통합되어 다중 네트워크 깊이에서 동적 상호 연결 구조 학습을 가능하게 한다.
정적 신체 연결 구조와 동적으로 학습된 상호 연결 구조를 조합하여 특징 표현을 향상시킨다.
이 방법은 엔드 투 엔드로 학습 가능하며, 추가적인 계산 오버헤드(~7% 추가 FLOPs)로 GCN 기반 모델에 원활하게 통합된다.
상호 연결 구조 학습에 대한 향후 연구를 안내하기 위해 세 가지의 대체 맥락 모델링 아키텍처를 탐색한다.

실험 결과

연구 질문

RQ1모든 관절의 전역 맥락적 특징이 동작 인식에서 학습된 스켈레톤 그래프 상호 연결 구조의 품질을 향상시키는가?
RQ2전역 맥락을 忽시하는 비국소 기반 방법과 비교해 데이터 기반의 맥락이 풍부한 상호 연결 구조 학습 접근법이 우월한가?
RQ3경량적이고 학습 가능한 모듈이 개별 샘플과 네트워크 레이어에 맞게 적응하는 동적이고 방향성 있는 그래프를 생성할 수 있는가?
RQ4정적 신체 연결과 학습된 상호 연결 구조의 통합이 성능 향상과 효율성 향상에 기여하는가?
RQ5기존 방법과 비교해 상당히 감소된 FLOPs로 최신 기술 수준의 성능를 달성할 수 있는가?

주요 결과

NTU-RGB+D에서 C-Subject 설정에서는 91.5%의 top-1 정확도를 달성하고, C-View 설정에서는 96.0%를 기록하여 기존 방법을 능가한다.
NTU-RGB+D 120에서 C-Subject 설정에서는 87.3%의 top-1 정확도, C-Setup 설정에서는 88.6%를 기록하여 기준 모델과 MS-G3D Net을 크게 앞서 간다.
Skeleton-Kinetics에서 Dynamic GCN는 top-1 정확도 37.9%와 top-5 정확도 61.3%를 기록하여 새로운 최신 기술 수준을 수립한다.
기준 모델 대비 약 7%의 추가 FLOPs만을 유발하지만, 기존 방법 대비 FLOPs를 2–4배 감소시킨다.
시각화 결과는 학습된 상호 연결 구조가 정적 그래프에서 놓친 비물리적이지만 정보적인 관절 의존성을 잘 포착하고 있음을 확인한다.
절단 분석 결과, CeN의 전역 맥락 모델링과 방향성 그래프 학습이 비국소 및 정적 GCN 기준 모델 대비 성능 향상에 크게 기여하는 것으로 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.