QUICK REVIEW

[論文レビュー] PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition

Kun Su, Liu Xiulong|arXiv (Cornell University)|Nov 27, 2019

Human Pose and Action Recognition被引用数 33

ひとこと要約

本論文では、自己教師あり自己符号化器に予測ヘッドを組み合わせた、ラベルなしのスケルトンベースの行動認識システムである PREDICT & CLUSTER を提案する。この手法は、ラベルなしのまま、生のキーポintsシーケンスから分離可能でクラスタリング可能な特徴を学習する。ラベルなしの状態で、複数のベンチマークにおいて教師あり手法と同等の性能を達成しており、従来のラベルなしスケルトンおよびRGB+Dアプローチを上回っている。特に、クロスビュー一般化性能において顕著な優位性を示している。

ABSTRACT

We propose a novel system for unsupervised skeleton-based action recognition. Given inputs of body keypoints sequences obtained during various movements, our system associates the sequences with actions. Our system is based on an encoder-decoder recurrent neural network, where the encoder learns a separable feature representation within its hidden states formed by training the model to perform prediction task. We show that according to such unsupervised training the decoder and the encoder self-organize their hidden states into a feature space which clusters similar movements into the same cluster and distinct movements into distant clusters. Current state-of-the-art methods for action recognition are strongly supervised, i.e., rely on providing labels for training. Unsupervised methods have been proposed, however, they require camera and depth inputs (RGB+D) at each time step. In contrast, our system is fully unsupervised, does not require labels of actions at any stage, and can operate with body keypoints input only. Furthermore, the method can perform on various dimensions of body keypoints (2D or 3D) and include additional cues describing movements. We evaluate our system on three extensive action recognition benchmarks with different number of actions and examples. Our results outperform prior unsupervised skeleton-based methods, unsupervised RGB+D based methods on cross-view tests and while being unsupervised have similar performance to supervised skeleton-based action recognition.

研究の動機と目的

トレーニング段階で行動ラベルを一切必要としない、完全にラベルなしのスケルトンベースの行動認識手法の開発。
RGB や深度データに依存せず、2D もしくは 3D のボディキーポイントシーケンスのみを用いての行動認識の実現。
類似した行動がクラスタを形成し、異なる行動が分離されるような、分離可能な特徴空間の学習。
スケルトンベースおよび RGB+D ベンチマークにおいて、既存のラベルなし手法を上回ることを目的とし、特にクロスビュー評価下での性能向上。
自己教師あり予測事前学習が、教師あり手法と競合可能な特徴表現を生成できることの実証。

提案手法

エンコーダ-デコーダ型のRNNアーキテクチャを採用し、エンコーダがキーポイントシーケンスを処理し、デコーダが将来のフレームを再構築する。
自己教師ありの予測タスクにより訓練：過去のキーポイントシーケンスから将来のシーケンスを予測する。
エンコーダの隠れ状態は、この予測目的を通じて分離可能な特徴表現を学習する。
デコーダとエンコーダが隠れ状態を共同で自己組織化し、類似した行動がクラスタを形成し、異なる行動が分離されるような特徴空間を形成する。
本手法は入力次元に依存せず、2D および 3D キーポイントシーケンスの両方をサポートする。
コアアーキテクチャを変更せずに、追加の動きの手がかりを入力に組み込むことができる。

実験結果

リサーチクエスチョン

RQ1RNNベースの自己符号化器における自己教師あり予測目的は、ラベルなしのまま、生のスケルトンシーケンスから分離可能で行動認識可能な特徴を学習できるか？
RQ2このラベルなし手法の性能は、最先端の教師ありスケルトンベースの行動認識モデルと比べてどの程度か？
RQ3事前微調整やラベルなしの状態で、学習された特徴はビュー間で一般化できるか（例：クロスビュー行動認識）？
RQ4クラスタリング品質と精度の観点から、既存のラベルなしRGB+Dおよびスケルトンのみのアプローチと比較して、本手法はどのように差をつけるか？
RQ5ラベルなしの状態で、追加の動きの手がかりをどの程度活用できるか？

主な発見

提案手法は、完全にラベルなしの状態であるにもかかわらず、教師ありスケルトンベースの行動認識モデルと同等の性能を達成した。
評価された3つのベンチマークすべてにおいて、従来のラベルなしスケルトンベース手法を上回った。
クロスビュー行動認識において、ラベルなしRGB+D手法を上回り、優れた一般化能力を示した。
自己教師あり学習の目的関数により、類似した行動がクラスタを形成し、異なる行動が分離されるような特徴空間が得られた。
2D および 3D キーポイント入力の両方で有効であり、追加の動きの手がかりを統合可能であった。
トレーニングのいかなる段階でも行動ラベルが利用可能でない状態でも、モデルの性能は安定して高い水準を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。