Skip to main content
QUICK REVIEW

[論文レビュー] Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation

Chao Li, Qiaoyong Zhong|arXiv (Cornell University)|Apr 17, 2018
Human Pose and Action Recognition参考文献 18被引用数 65
ひとこと要約

著者らは、CNNによるグローバル共起集約と2ストリーム Skeleton motion を用いたエンドツーエンド階層的共起特徴学習フレームワーク(HCN)を提案し、骨格データからのアクション認識と検出を改善し、NTU RGB+D、SBU Kinect Interaction、PKU-MMDで最先端の結果を達成している。

ABSTRACT

Skeleton-based human action recognition has recently drawn increasing attentions with the availability of large-scale skeleton datasets. The most crucial factors for this task lie in two aspects: the intra-frame representation for joint co-occurrences and the inter-frame representation for skeletons' temporal evolutions. In this paper we propose an end-to-end convolutional co-occurrence feature learning framework. The co-occurrence features are learned with a hierarchical methodology, in which different levels of contextual information are aggregated gradually. Firstly point-level information of each joint is encoded independently. Then they are assembled into semantic representation in both spatial and temporal domains. Specifically, we introduce a global spatial aggregation scheme, which is able to learn superior joint co-occurrence features over local aggregation. Besides, raw skeleton coordinates as well as their temporal difference are integrated with a two-stream paradigm. Experiments show that our approach consistently outperforms other state-of-the-arts on action recognition and detection benchmarks like NTU RGB+D, SBU Kinect Interaction and PKU-MMD.

研究の動機と目的

  • ロバストな骨格ベースのアクション認識と検出を、関節の共起パターンを活用して動機づける。
  • 骨格系列からグローバルな関節共起を学習するエンドツーエンドのCNNフレームワークを開発する。
  • 2ストリーム設計を通じて explicit skeleton motion を組み込み、時間的ダイナミクスを捉える。
  • 効果的な特徴融合戦略を通じてマルチペーソンシナリオへのスケーラビリティを確保する。
  • NTU RGB+D、SBU Kinect Interaction、PKU-MMDデータセットで最先端の性能を実証する。

提案手法

  • スケルトン系列をフレーム x 関節 x 3(座標) のテンソルとして表現する。
  • 点レベルの関節特徴を 1x1 および nx1 畳み込みでエンコードし、各関節の表現を学習する。
  • 関節次元をチャネルに入れ替えて全体的な共起学習を可能にする。
  • ポイントレベルの特徴からグローバル共起特徴へと特徴を集約する階層的 CNN を用いる。
  • raw 座標と時間的差分(スケルトンモーション)を入力として2ストリームを採用し、チャネル-wise の結合で特徴を融合する。
  • スケーラビリティのために初期パディング、最大/平均/結合による後期融合などのマルチペーソン特徴融合戦略を拡張する。
  • Bounding-box 回帰に類似したウィンドウ処理を用いた回帰型のサブネットワークをアクション検出のために適用する。

実験結果

リサーチクエスチョン

  • RQ1CNNを用いたグローバル共起特徴は、骨格ベースのアクション認識における局所的な共起手法を上回るか。
  • RQ2座標とモーションの2ストリーム表現は、アクション認識と検出の性能を向上させるか。
  • RQ3関節情報の階層的集約は、データセットと被験者を横断して認識精度にどのような影響を与えるか。
  • RQ4マルチペーソン動作で変動する人数をどのような融合戦略が最も効果的に処理するか。
  • RQ5提案手法は NTU RGB+D、SBU Kinect Interaction、PKU-MMD における認識と検出のタスクでどのように性能を示すか。

主な発見

  • Hierarchical Co-occurrence Network (HCN) は、アクション認識と検出のベンチマークで一貫して最先端手法を上回る。
  • 関節を入力チャネルとして扱うグローバル共起学習は、局所的共起アプローチより良い結果をもたらす。
  • 座標と骨格モーションの2ストリーム融合は、データセット全体で性能を向上させる。
  • マルチペーソン入力に対しては後期融合で要素ごとの最大を用いるのが最も効果的で、人数の変動に対しても一般化する。
  • NTU RGB+D では、HCN は 86.5% (CS) および 91.1% (CV) の精度を達成し、従来手法を上回る。
  • SBU Kinect Interaction では、HCN は 98.6% の精度に達し、従来手法を大幅に上回る。
  • PKU-MMD では、HCN は検出で 92.6% mAP (CS) および 94.2% mAP (CV) を達成し、いくつかの先行法を凌駕する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。