QUICK REVIEW

[논문 리뷰] PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition

Kun Su, Liu Xiulong|arXiv (Cornell University)|2019. 11. 27.

Human Pose and Action Recognition인용 수 33

한 줄 요약

이 논문은 원시 키포인트 시퀀스에서 분리 가능하고 군집화 가능한 특징을 학습하기 위해 예측 헤드를 갖춘 자기지도 학습 자동에코더를 사용하는 비지도 스켈레톤 기반 행동 인식 시스템인 PREDICT & CLUSTER를 제안한다. 행동 레이블 없이도 여러 벤치마크에서 지도 학습 방법과 비교할 만한 성능을 달성하며, 이전의 비지도 스켈레톤 및 RGB+D 접근 방식을 뛰어넘으며, 특히 시각 간 일반화 성능에서 뛰어나다.

ABSTRACT

We propose a novel system for unsupervised skeleton-based action recognition. Given inputs of body keypoints sequences obtained during various movements, our system associates the sequences with actions. Our system is based on an encoder-decoder recurrent neural network, where the encoder learns a separable feature representation within its hidden states formed by training the model to perform prediction task. We show that according to such unsupervised training the decoder and the encoder self-organize their hidden states into a feature space which clusters similar movements into the same cluster and distinct movements into distant clusters. Current state-of-the-art methods for action recognition are strongly supervised, i.e., rely on providing labels for training. Unsupervised methods have been proposed, however, they require camera and depth inputs (RGB+D) at each time step. In contrast, our system is fully unsupervised, does not require labels of actions at any stage, and can operate with body keypoints input only. Furthermore, the method can perform on various dimensions of body keypoints (2D or 3D) and include additional cues describing movements. We evaluate our system on three extensive action recognition benchmarks with different number of actions and examples. Our results outperform prior unsupervised skeleton-based methods, unsupervised RGB+D based methods on cross-view tests and while being unsupervised have similar performance to supervised skeleton-based action recognition.

연구 동기 및 목표

학습 중에 행동 레이블이 필요하지 않은 완전히 비지도 스켈레톤 기반 행동 인식 방법을 개발하는 것.
RGB나 깊이 데이터에 의존하지 않고 오직 2D 또는 3D 신체 키포인트 시퀀스만을 사용하여 행동 인식을 가능하게 하는 것.
유사한 행동이 뭉치고 다른 행동은 분리되는 분리 가능한 특징 공간을 학습하는 것.
특히 시각 간 평가 조건에서 기존 비지도 방법보다 스켈레톤 기반 및 RGB+D 벤치마크에서 성능을 뛰어넘는 것.
자기지도 예측 사전 훈련이 지도 학습 방법과 경쟁 가능한 특징 표현을 도출할 수 있음을 보여주는 것.

제안 방법

모델은 인코더-디코더 RNN 아키텍처를 사용하며, 인코더는 키포인트 시퀀스를 처리하고 디코더는 향후 프레임을 재구성한다.
모델은 과거 키포인트 시퀀스에서 향후 시퀀스를 예측하는 자기지도 학습 예측 과제를 통해 훈련된다.
인코더의 은닉 상태는 이 예측 목표를 통해 분리 가능한 특징 표현을 학습한다.
디코더와 인코더가 함께 은닉 상태를 자율적으로 조직하여 유사한 행동은 뭉치고, 다른 행동은 분리되는 특징 공간을 형성한다.
이 방법은 입력 차원에 관계없이 적용 가능하여 2D 및 3D 키포인트 시퀀스 모두 지원한다.
기본 아키텍처를 수정하지 않고도 추가적인 운동 신호를 입력에 통합할 수 있다.

실험 결과

연구 질문

RQ1RNN 기반 자동에코더에서 자기지도 예측 과제가 원시 스켈레톤 시퀀스에서 어떤 레이블 없이도 분리 가능하고 행동 인식에 적합한 특징를 학습할 수 있는가?
RQ2이 비지도 방법의 성능는 최신 기술 수준의 지도 학습 기반 스켈레톤 행동 인식 모델과 비교해 어떻게 되는가?
RQ3학습 중에 미세조정이나 레이블 데이터 없이도 학습된 특징가 시각 간 일반화에 효과적으로 작용할 수 있는가?
RQ4기존의 비지도 RGB+D 및 스켈레톤 전용 접근 방식과 비교해 이 방법의 군집 품질과 정확도는 어떻게 되는가?
RQ5모델이 레이블 데이터 없이도 추가적인 운동 신호를 얼마나 효과적으로 활용할 수 있는가?

주요 결과

제안된 방법은 완전히 비지도이지만 지도 학습 기반 스켈레톤 행동 인식 모델과 비교할 만한 성능를 달성한다.
모든 세 가지 평가 벤치마크에서 이전의 비지도 스켈레톤 기반 방법을 모두 능가한다.
시각 간 행동 인식에서 비지도 RGB+D 방법을 능가하여 강력한 일반화 능력을 보여준다.
자기지도 훈련 목표는 유사한 행동이 뭉치고 다른 행동이 분리되는 특징 공간을 생성한다.
이 방법은 2D 및 3D 키포인트 입력 모두에서 효과적이며 추가적인 운동 신호를 통합할 수 있다.
학습 과정의 어느 단계에서도 행동 레이블에 접근할 수 없더라도 모델의 성능는 높은 수준을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.