[논문 리뷰] Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching
이 논문은 뼈대 기반 인간 동작 인식을 위한 최초의 신경망 아키텍처 탐색(NAS)-기반 그래프 컬러이션 네트워크(GCN)를 제안하며, 최적의 그래프 구조와 고차원 연결을 자동으로 탐지한다. 메모리 및 샘플 효율적인 진화 전략을 통해 동적 공간-시간 그래프 학습과 다중 스텝 체비셰프 근사법을 통합함으로써, NTU RGB+D 및 Kinetics-Skeleton 데이터셋에서 최신 기술 수준(SOTA)의 정확도를 달성한다.
Human action recognition from skeleton data, fueled by the Graph Convolutional Network (GCN), has attracted lots of attention, due to its powerful capability of modeling non-Euclidean structure data. However, many existing GCN methods provide a pre-defined graph and fix it through the entire network, which can loss implicit joint correlations. Besides, the mainstream spectral GCN is approximated by one-order hop, thus higher-order connections are not well involved. Therefore, huge efforts are required to explore a better GCN architecture. To address these problems, we turn to Neural Architecture Search (NAS) and propose the first automatically designed GCN for skeleton-based action recognition. Specifically, we enrich the search space by providing multiple dynamic graph modules after fully exploring the spatial-temporal correlations between nodes. Besides, we introduce multiple-hop modules and expect to break the limitation of representational capacity caused by one-order approximation. Moreover, a sampling- and memory-efficient evolution strategy is proposed to search an optimal architecture for this task. The resulted architecture proves the effectiveness of the higher-order approximation and the dynamic graph modeling mechanism with temporal interactions, which is barely discussed before. To evaluate the performance of the searched model, we conduct extensive experiments on two very large scaled datasets and the results show that our model gets the state-of-the-art results.
연구 동기 및 목표
- 기존 뼈대 기반 동작 인식을 위한 GCN 방법에서 고정된 사전 정의된 그래프 구조의 한계를 극복하기 위해.
- 주류 스펙트럴 GCN에서 일阶 체비셰프 근사로 인해 발생하는 표현 능력의 한계를 해결하기 위해.
- 맞춤형 GCN 탐색 공간에서 자동화된 신경망 아키텍처 탐색(NAS)을 통해 수동 아키텍처 설계의 노력을 줄이기 위해.
- 층별로 다른 공간-시간 상관관계를 모델링함으로써 성능을 향상시키기 위해.
- 인간 뼈대와 같은 대규모 비유클리드 그래프 데이터에 적합한 메모리 및 샘플 효율적인 탐색 전략을 개발하기 위해.
제안 방법
- 뼈대 데이터에 특화된 새로운 NAS 프레임워크를 제안하며, 공간, 시간, 공간-시간 노드 상관관계 기반의 다수의 동적 그래프 모듈을 포함한 탐색 공간을 구성한다.
- 4차 다항식 체비셰프 근사를 통한 고차원 그래프 컨벌루션을 도입하여 제1차 이웃을 초월한 수용 영역을 확장한다.
- 연속 및 이산 공간에서의 아키텍처 탐색을 최적화하기 위해 교차 엔트로피와 중요도 믹싱을 융합한 샘플링 및 메모리 효율적인 진화 전략(CEIM)을 설계한다.
- 층별 동적 그래프 학습을 적용하여, 각 네트워크 층에 맞는 다른 그래프 생성 메커니즘을 선택하여 진화하는 의미 정보를 포착한다.
- 백프로파게이션을 아키텍처 파라미터를 통해 요구하지 않는 신경 진화 접근법을 사용하여 아키텍처 분포를 추정하고 탐색을 이끌어낸다.
- 관절 및 뼈 모odal리티 특징의 점수 수준 융합을 적용하여 NTU RGB+D 및 Kinetics-Skeleton 데이터셋에서 성능 향상을 이룬다.
실험 결과
연구 질문
- RQ1신경망 아키텍처 탐색(NAS)이 수작업 설계된 아키텍처를 뛰어넘는 최적의 GCN 아키텍처를 효과적으로 탐색할 수 있는가?
- RQ2층별로 동적일 뿐 아니라 특정한 그래프 학습을 통합하면 고정되거나 공유되는 그래프 구조보다 성능 향상이 이루어지는가?
- RQ3체비셰프 근사를 통한 고차원 그래프 컨벌루션은 표현 능력과 인식 정확도를 어느 정도 향상시키는가?
- RQ4메모리 및 샘플 효율적인 진화 전략이 인간 뼈대와 같은 대규모 비유클리드 그래프 데이터에서 효과적인 NAS를 가능하게 하는가?
- RQ5시간적 상관관계와 공간-시간 상호작용은 탐색된 GCN 아키텍처의 최종 성능에 어떤 기여를 하는가?
주요 결과
- 관절 모달리티를 사용할 경우, NAS 최적화된 GCN은 NTU RGB+D 데이터셋에서 94.6%의 정확도를 달성하여 이전 SOTA(2S-AGCN, 93.7%)를 0.9%p 향상시켰다.
- 뼈 모달리티의 경우, 모델은 94.7%의 정확도를 기록하여 이전 최신 기술 수준보다 1.5%p 향상되었다.
- 관절 및 뼈 융합을 통한 경우, NTU RGB+D에서 95.7%의 정확도를 달성하여 새로운 SOTA 기준을 수립했다.
- Kinetics-Skeleton에서 모델은 관절+뼈 융합을 통해 37.1%의 top-1 정확도를 기록하여 이전 SOTA(36.1%)를 1.0%p 뛰어넘었다.
- 절단 실험 결과, 시간적 상관관계 모델링과 고차원 체비셰프 근사가 성능 향상에 크게 기여하며, Ours(T+Cheb)는 관절 모달리티에서 94.0%, 융합 모달리티에서 95.2%의 정확도를 기록했다.
- 전체 NAS 기반 아키텍처(Ours(NAS))는 모든 절단 변형보다 일관되게 뛰어난 성능을 보이며, 동적 그래프 및 고차원 모듈의 공동 탐색의 효과성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.