Skip to main content
QUICK REVIEW

[논문 리뷰] Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation

Chao Li, Qiaoyong Zhong|arXiv (Cornell University)|2018. 04. 17.
Human Pose and Action Recognition참고 문헌 18인용 수 65
한 줄 요약

저자들은 글로벌 결합 공동출현 집계화를 통한 엔드-투-엔드 계층적 공동출현 특징 학습 프레임워크(HCN)를 제안하며, CNNs를 통한 글로벌 결합 공동출현 집계와 두 스트림 스켈레톤 모션 입력을 사용해 스켈레톤 데이터에서 동작 인식 및 탐지를 향상시키고 NTU RGB+D, SBU Kinect Interaction, 및 PKU-MMD에서 최첨단 결과를 달성한다.

ABSTRACT

Skeleton-based human action recognition has recently drawn increasing attentions with the availability of large-scale skeleton datasets. The most crucial factors for this task lie in two aspects: the intra-frame representation for joint co-occurrences and the inter-frame representation for skeletons' temporal evolutions. In this paper we propose an end-to-end convolutional co-occurrence feature learning framework. The co-occurrence features are learned with a hierarchical methodology, in which different levels of contextual information are aggregated gradually. Firstly point-level information of each joint is encoded independently. Then they are assembled into semantic representation in both spatial and temporal domains. Specifically, we introduce a global spatial aggregation scheme, which is able to learn superior joint co-occurrence features over local aggregation. Besides, raw skeleton coordinates as well as their temporal difference are integrated with a two-stream paradigm. Experiments show that our approach consistently outperforms other state-of-the-arts on action recognition and detection benchmarks like NTU RGB+D, SBU Kinect Interaction and PKU-MMD.

연구 동기 및 목표

  • 관절 동시출현 패턴을 활용하여 뼈대 기반 동작 인식 및 탐지를 견고하게 만드는 것을 목표로 한다.
  • 스켈레톤 시퀀스에서 글로벌 공동출현을 학습하는 엔드-투-엔드 CNN 프레임워크를 개발한다.
  • 두 스트림 설계를 통해 명시적 뼈대 모션을 도입하여 시간적 동역학을 포착한다.
  • 효과적인 특징 융합 전략을 통해 다인 상황에 대한 확장성을 보장한다.
  • NTU RGB+D, SBU Kinect Interaction, PKU-MMD 데이터셋에서 최첨단 성능을 입증한다.

제안 방법

  • 스켈레톤 시퀀스를 텐서 frames x joints x 3(좌표)로 표현한다.
  • 1x1 및 nx1 컨볼루션으로 포인트 수준의 관절 특징을 인코딩하여 관절별 표현을 학습한다.
  • 전치를 통해 관절 차원을 채널로 바꿔 전 관절 간의 글로벌 공동출현 학습을 가능하게 한다.
  • 포인트 수준의 특징에서 글로벌 공동출현 특징으로 어그리게이트하기 위해 계층적 CNN을 사용한다.
  • 원시 좌표와 시간 차이(스켈레톤 모션)를 입력으로 하는 두 스트림 패러다임을 채택하고 채널 차원의 연결로 특징을 융합한다.
  • 다인 인스턴스를 위한 확장성을 위해 다인 특징 융합 전략(얼리 패딩, max/mean/concat를 이용한 후기 융합)을 도입한다.
  • 시간적 제안 및 동작 분류 서브네트워크를 적용하여 동작 탐지를 수행하고, 바운딩 박스 회귀와 유사한 회귀형 윈도잉 전략을 사용한다.

실험 결과

연구 질문

  • RQ1CNN이 학습한 글로벌 공동출현 특징이 스켈레톤 기반 동작 인식에서 로컬 관절 공동출현 방법을 능가할 수 있는가?
  • RQ2좌표와 모션의 이중 스트림 표현이 동작 인식 및 탐지 성능을 향상시키는가?
  • RQ3관절 정보의 계층적 집계가 데이터셋과 피험자에 따라 인식 정확도에 어떤 영향을 미치는가?
  • RQ4다인 동작에서 가변 피험자 수를 다루기 위한 융합 전략은 무엇이 가장 효과적인가?
  • RQ5NTU RGB+D, SBU Kinect Interaction, PKU-MMD에서 제안 방법의 인식 대 탐지 성능은 어떠한가?

주요 결과

  • 계층적 공동출현 네트워크(HCN)는 동작 인식 및 탐지 벤치마크에서 일관되게 최첨단 방법을 능가한다.
  • 관절을 입력 채널로 간주한 글로벌 공동출현 학습은 로컬 공동출현 접근법보다 더 나은 결과를 낳는다.
  • 좌표와 스켈레톤 모션의 이중 스트림 융합은 데이터셋 전반에서 성능을 향상시킨다.
  • 다인 입력에 대한 요소별 최대값을 이용한 후기 융합이 가장 효과적인 전략으로, 피험자 수의 변화에 잘 일반화된다.
  • NTU RGB+D에서 HCN은 86.5% CS 및 91.1% CV 정확도를 달성하며 기존 방법을 능가한다.
  • SBU Kinect Interaction에서 HCN은 98.6% 정확도에 도달하여 기존 연구를 크게 능가한다.
  • PKU-MMD에서 HCN은 탐지에 대해 92.6% mAP(CS) 및 94.2% mAP(CV)를 달성하며 다수의 기존 접근법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.