[논문 리뷰] Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation
저자들은 글로벌 결합 공동출현 집계화를 통한 엔드-투-엔드 계층적 공동출현 특징 학습 프레임워크(HCN)를 제안하며, CNNs를 통한 글로벌 결합 공동출현 집계와 두 스트림 스켈레톤 모션 입력을 사용해 스켈레톤 데이터에서 동작 인식 및 탐지를 향상시키고 NTU RGB+D, SBU Kinect Interaction, 및 PKU-MMD에서 최첨단 결과를 달성한다.
Skeleton-based human action recognition has recently drawn increasing attentions with the availability of large-scale skeleton datasets. The most crucial factors for this task lie in two aspects: the intra-frame representation for joint co-occurrences and the inter-frame representation for skeletons' temporal evolutions. In this paper we propose an end-to-end convolutional co-occurrence feature learning framework. The co-occurrence features are learned with a hierarchical methodology, in which different levels of contextual information are aggregated gradually. Firstly point-level information of each joint is encoded independently. Then they are assembled into semantic representation in both spatial and temporal domains. Specifically, we introduce a global spatial aggregation scheme, which is able to learn superior joint co-occurrence features over local aggregation. Besides, raw skeleton coordinates as well as their temporal difference are integrated with a two-stream paradigm. Experiments show that our approach consistently outperforms other state-of-the-arts on action recognition and detection benchmarks like NTU RGB+D, SBU Kinect Interaction and PKU-MMD.
연구 동기 및 목표
- 관절 동시출현 패턴을 활용하여 뼈대 기반 동작 인식 및 탐지를 견고하게 만드는 것을 목표로 한다.
- 스켈레톤 시퀀스에서 글로벌 공동출현을 학습하는 엔드-투-엔드 CNN 프레임워크를 개발한다.
- 두 스트림 설계를 통해 명시적 뼈대 모션을 도입하여 시간적 동역학을 포착한다.
- 효과적인 특징 융합 전략을 통해 다인 상황에 대한 확장성을 보장한다.
- NTU RGB+D, SBU Kinect Interaction, PKU-MMD 데이터셋에서 최첨단 성능을 입증한다.
제안 방법
- 스켈레톤 시퀀스를 텐서 frames x joints x 3(좌표)로 표현한다.
- 1x1 및 nx1 컨볼루션으로 포인트 수준의 관절 특징을 인코딩하여 관절별 표현을 학습한다.
- 전치를 통해 관절 차원을 채널로 바꿔 전 관절 간의 글로벌 공동출현 학습을 가능하게 한다.
- 포인트 수준의 특징에서 글로벌 공동출현 특징으로 어그리게이트하기 위해 계층적 CNN을 사용한다.
- 원시 좌표와 시간 차이(스켈레톤 모션)를 입력으로 하는 두 스트림 패러다임을 채택하고 채널 차원의 연결로 특징을 융합한다.
- 다인 인스턴스를 위한 확장성을 위해 다인 특징 융합 전략(얼리 패딩, max/mean/concat를 이용한 후기 융합)을 도입한다.
- 시간적 제안 및 동작 분류 서브네트워크를 적용하여 동작 탐지를 수행하고, 바운딩 박스 회귀와 유사한 회귀형 윈도잉 전략을 사용한다.
실험 결과
연구 질문
- RQ1CNN이 학습한 글로벌 공동출현 특징이 스켈레톤 기반 동작 인식에서 로컬 관절 공동출현 방법을 능가할 수 있는가?
- RQ2좌표와 모션의 이중 스트림 표현이 동작 인식 및 탐지 성능을 향상시키는가?
- RQ3관절 정보의 계층적 집계가 데이터셋과 피험자에 따라 인식 정확도에 어떤 영향을 미치는가?
- RQ4다인 동작에서 가변 피험자 수를 다루기 위한 융합 전략은 무엇이 가장 효과적인가?
- RQ5NTU RGB+D, SBU Kinect Interaction, PKU-MMD에서 제안 방법의 인식 대 탐지 성능은 어떠한가?
주요 결과
- 계층적 공동출현 네트워크(HCN)는 동작 인식 및 탐지 벤치마크에서 일관되게 최첨단 방법을 능가한다.
- 관절을 입력 채널로 간주한 글로벌 공동출현 학습은 로컬 공동출현 접근법보다 더 나은 결과를 낳는다.
- 좌표와 스켈레톤 모션의 이중 스트림 융합은 데이터셋 전반에서 성능을 향상시킨다.
- 다인 입력에 대한 요소별 최대값을 이용한 후기 융합이 가장 효과적인 전략으로, 피험자 수의 변화에 잘 일반화된다.
- NTU RGB+D에서 HCN은 86.5% CS 및 91.1% CV 정확도를 달성하며 기존 방법을 능가한다.
- SBU Kinect Interaction에서 HCN은 98.6% 정확도에 도달하여 기존 연구를 크게 능가한다.
- PKU-MMD에서 HCN은 탐지에 대해 92.6% mAP(CS) 및 94.2% mAP(CV)를 달성하며 다수의 기존 접근법을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.