QUICK REVIEW

[논문 리뷰] Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition

Lei Shi, Yifan Zhang|arXiv (Cornell University)|2018. 05. 20.

Human Pose and Action Recognition참고 문헌 38인용 수 23

한 줄 요약

이 논문은 두 개의 스트림을 갖는 적응형 그래프 컨볼루션 네트워크(2s-AGCN)를 제안하여 골격 기반 동작 인식을 수행한다. 이는 백프로파게이션을 통해 다양한 레이어와 입력 샘플에 대해 최적의 그래프 구조를 동시에 학습하며, 이중 스트림 아키텍처를 통해 첫 번째 순서(관절 좌표) 및 두 번째 순서(뼈 길이 및 방향) 골격 특징을 명시적으로 모델링한다. 본 방법은 NTU-RGBD(95.1% top-1 정확도) 및 Kinetics-Skeleton(36.1% top-1 정확도)에서 최신 기술을 압도적으로 뛰어넘는 성능을 달성한다.

ABSTRACT

In skeleton-based action recognition, graph convolutional networks (GCNs), which model the human body skeletons as spatiotemporal graphs, have achieved remarkable performance. However, in existing GCN-based methods, the topology of the graph is set manually, and it is fixed over all layers and input samples. This may not be optimal for the hierarchical GCN and diverse samples in action recognition tasks. In addition, the second-order information (the lengths and directions of bones) of the skeleton data, which is naturally more informative and discriminative for action recognition, is rarely investigated in existing methods. In this work, we propose a novel two-stream adaptive graph convolutional network (2s-AGCN) for skeleton-based action recognition. The topology of the graph in our model can be either uniformly or individually learned by the BP algorithm in an end-to-end manner. This data-driven method increases the flexibility of the model for graph construction and brings more generality to adapt to various data samples. Moreover, a two-stream framework is proposed to model both the first-order and the second-order information simultaneously, which shows notable improvement for the recognition accuracy. Extensive experiments on the two large-scale datasets, NTU-RGBD and Kinetics-Skeleton, demonstrate that the performance of our model exceeds the state-of-the-art with a significant margin.

연구 동기 및 목표

기존 GCN 기반 골격 동작 인식 모델에서 고정된 수작업으로 만든 그래프 구조의 한계를 해결하기 위해, 계층적 특징 학습과 다양한 동작 패tern에 적응하지 못하는 문제를 해결한다.
첫 번째 순서 관절 좌표 외에도 뼈 길이 및 방향과 같은 두 번째 순서 정보를 명시적으로 모델링하여 인식 성능을 향상시킨다.
레이어 및 샘플별로 적응하는 데이터 기반 그래프 학습 메커니즘을 개발하여 모델의 유연성과 일반화 능력을 향상시킨다.
대규모 벤치마크에서의 광범위한 실험을 통해 제안된 이중 스트림 아키텍처의 우수성을 입증한다.

제안 방법

모델은 이중 스트림 아키텍처를 사용한다: 한 스트림은 첫 번째 순서 특징(관절 좌표)을 처리하고, 다른 스트림은 두 번째 순서 특징(관절 간 뼈 길이 및 방향을 나타내는 벡터)을 처리한다.
그래프 구조는 백프로파게이션을 통해 미분 가능한 파라미터를 사용해 엔드 투 엔드로 학습되며, 두 가지 유형의 그래프를 사용한다: 공유 구조 패턴을 위한 글로벌 그래프와 샘플별 관계를 위한 개별 그래프이다.
적응형 그래프 컨볼루션 레이어는 레이어 및 샘플별로 인접 행렬을 업데이트하여, 계층적 특징 추상화에 따라 진화하는 동적 구조 학습을 가능하게 한다.
최종 예측은 두 스트림의 특징을 후기 융합을 통해 생성하여 분류 능력을 향상시킨다.
표준 교차 엔트로피 손실을 사용해 엔드 투 엔드로 학습하며, 그래프 파라미터는 컨볼루션 가중치와 함께 동시에 최적화된다.

실험 결과

연구 질문

RQ1고정된 수작업 그래프 대비 엔드 투 엔드 그래프 구조 학습이 골격 기반 동작 인식 성능 향상에 기여하는가?
RQ2뼈 길이 및 방향과 같은 두 번째 순서 골격 특징을 첫 번째 순서 관절 좌표와 함께 통합하면 성능 향상이 뚜렷한가?
RQ3각 샘플 및 레이어별 개별화된 데이터 기반 그래프 구조가 단일 고정 구조보다 계층적 의미 표현을 더 잘 포착하는가?
RQ4첫 번째 및 두 번째 순서 특징의 이중 스트림 융합이 단일 스트림 기반 모델 대비 인식 정확도에서 뛰어나지 않는가?

주요 결과

제안된 2s-AGCN은 NTU-RGBD 데이터셋에서 95.1%의 top-1 정확도를 달성하여 이전 최고 기록을 크게 앞서간다.
Kinetics-Skeleton 데이터셋에서는 36.1%의 top-1 정확도를 기록하며, 이는 이전 최고 성능보다 5.4% 포인트 높은 성능이다.
제거 실험 결과, 첫 번째 및 두 번째 순서 특징을 융합한 이중 스트림 아키텍처가 가장 높은 정확도(95.1%)를 기록했으며, 단일 스트림 기반 모델(93.7% 및 93.2%)보다 뛰어나다는 것이 확인되었다.
학습된 그래프의 시각화 결과, 높은 레이어에서 비국소적 연결(예: 왼손과 오른손 간 연결)이 형성되는 것으로 나타나, 작업에 맞는 구조 적응이 이루어지고 있음을 보여준다.
개별 그래프 구성 요소는 각 샘플별로 다른 구조를 학습하며, 최적의 그래프 구조가 액션에 따라 달라지고 고정되어 있지 않음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.