QUICK REVIEW

[논문 리뷰] Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation

Chao Li, Qiaoyong Zhong|arXiv (Cornell University)|2018. 04. 17.

Human Pose and Action Recognition참고 문헌 18인용 수 65

한 줄 요약

저자들은 글로벌 결합 공동출현 집계화를 통한 엔드-투-엔드 계층적 공동출현 특징 학습 프레임워크(HCN)를 제안하며, CNNs를 통한 글로벌 결합 공동출현 집계와 두 스트림 스켈레톤 모션 입력을 사용해 스켈레톤 데이터에서 동작 인식 및 탐지를 향상시키고 NTU RGB+D, SBU Kinect Interaction, 및 PKU-MMD에서 최첨단 결과를 달성한다.

ABSTRACT

Skeleton-based human action recognition has recently drawn increasing attentions with the availability of large-scale skeleton datasets. The most crucial factors for this task lie in two aspects: the intra-frame representation for joint co-occurrences and the inter-frame representation for skeletons' temporal evolutions. In this paper we propose an end-to-end convolutional co-occurrence feature learning framework. The co-occurrence features are learned with a hierarchical methodology, in which different levels of contextual information are aggregated gradually. Firstly point-level information of each joint is encoded independently. Then they are assembled into semantic representation in both spatial and temporal domains. Specifically, we introduce a global spatial aggregation scheme, which is able to learn superior joint co-occurrence features over local aggregation. Besides, raw skeleton coordinates as well as their temporal difference are integrated with a two-stream paradigm. Experiments show that our approach consistently outperforms other state-of-the-arts on action recognition and detection benchmarks like NTU RGB+D, SBU Kinect Interaction and PKU-MMD.

연구 동기 및 목표

관절 동시출현 패턴을 활용하여 뼈대 기반 동작 인식 및 탐지를 견고하게 만드는 것을 목표로 한다.
스켈레톤 시퀀스에서 글로벌 공동출현을 학습하는 엔드-투-엔드 CNN 프레임워크를 개발한다.
두 스트림 설계를 통해 명시적 뼈대 모션을 도입하여 시간적 동역학을 포착한다.
효과적인 특징 융합 전략을 통해 다인 상황에 대한 확장성을 보장한다.
NTU RGB+D, SBU Kinect Interaction, PKU-MMD 데이터셋에서 최첨단 성능을 입증한다.

제안 방법

스켈레톤 시퀀스를 텐서 frames x joints x 3(좌표)로 표현한다.
1x1 및 nx1 컨볼루션으로 포인트 수준의 관절 특징을 인코딩하여 관절별 표현을 학습한다.
전치를 통해 관절 차원을 채널로 바꿔 전 관절 간의 글로벌 공동출현 학습을 가능하게 한다.
포인트 수준의 특징에서 글로벌 공동출현 특징으로 어그리게이트하기 위해 계층적 CNN을 사용한다.
원시 좌표와 시간 차이(스켈레톤 모션)를 입력으로 하는 두 스트림 패러다임을 채택하고 채널 차원의 연결로 특징을 융합한다.
다인 인스턴스를 위한 확장성을 위해 다인 특징 융합 전략(얼리 패딩, max/mean/concat를 이용한 후기 융합)을 도입한다.
시간적 제안 및 동작 분류 서브네트워크를 적용하여 동작 탐지를 수행하고, 바운딩 박스 회귀와 유사한 회귀형 윈도잉 전략을 사용한다.

실험 결과

연구 질문

RQ1CNN이 학습한 글로벌 공동출현 특징이 스켈레톤 기반 동작 인식에서 로컬 관절 공동출현 방법을 능가할 수 있는가?
RQ2좌표와 모션의 이중 스트림 표현이 동작 인식 및 탐지 성능을 향상시키는가?
RQ3관절 정보의 계층적 집계가 데이터셋과 피험자에 따라 인식 정확도에 어떤 영향을 미치는가?
RQ4다인 동작에서 가변 피험자 수를 다루기 위한 융합 전략은 무엇이 가장 효과적인가?
RQ5NTU RGB+D, SBU Kinect Interaction, PKU-MMD에서 제안 방법의 인식 대 탐지 성능은 어떠한가?

주요 결과

계층적 공동출현 네트워크(HCN)는 동작 인식 및 탐지 벤치마크에서 일관되게 최첨단 방법을 능가한다.
관절을 입력 채널로 간주한 글로벌 공동출현 학습은 로컬 공동출현 접근법보다 더 나은 결과를 낳는다.
좌표와 스켈레톤 모션의 이중 스트림 융합은 데이터셋 전반에서 성능을 향상시킨다.
다인 입력에 대한 요소별 최대값을 이용한 후기 융합이 가장 효과적인 전략으로, 피험자 수의 변화에 잘 일반화된다.
NTU RGB+D에서 HCN은 86.5% CS 및 91.1% CV 정확도를 달성하며 기존 방법을 능가한다.
SBU Kinect Interaction에서 HCN은 98.6% 정확도에 도달하여 기존 연구를 크게 능가한다.
PKU-MMD에서 HCN은 탐지에 대해 92.6% mAP(CS) 및 94.2% mAP(CV)를 달성하며 다수의 기존 접근법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.