QUICK REVIEW

[論文レビュー] Skeleton-Based Relational Modeling for Action Recognition.

Lin Li, Zheng Wu|arXiv (Cornell University)|May 7, 2018

Human Pose and Action Recognition参考文献 29被引用数 42

ひとこと要約

本稿では、行動認識のための人体スケルトンシーケンスにおける空間的構成と時間的ダイナミクスをモデル化する、2ストリームの注意メカニズムを備えた再帰的関係的ニューラルネットワークであるARRN-LSTMを提案する。関係的インダクティブバイアスと適応的注意メカニズムを活用することで、複数のベンチマークで既存手法を上回り、構造的および順序的特徴抽出の向上により最先端の性能を達成する。

ABSTRACT

With the fast development of effective and low-cost human skeleton capture systems, skeleton-based action recognition has attracted much attention recently. Most existing methods use Convolutional Neural Network(CNN) and Recurrent Neural Network(RNN) to extract spatio-temporal information embedded in the skeleton sequences for action recognition. However, these approaches are limited in the ability of relational modeling in a single skeleton, due to the loss of important structural information when converting the raw skeleton data to adapt to the CNN or RNN input. In this paper, we propose an Attentional Recurrent Relational Network-LSTM(ARRN-LSTM) to simultaneously model spatial configurations and temporal dynamics in skeletons for action recognition. The spatial patterns embedded in a single skeleton are learned by a Recurrent Relational Network, followed by a multi-layer LSTM to extract temporal features in the skeleton sequences. To exploit the complementarity between different geometries in the skeleton for sufficient relational modeling, we design a two-stream architecture to learn the relationship among joints and explore the underlying patterns among lines simultaneously. We also introduce an adaptive attentional module for focusing on potential discriminative parts of the skeleton towards a certain action. Extensive experiments are performed on several popular action recognition datasets and the results show that the proposed approach achieves competitive results with the state-of-the-art methods.

研究の動機と目的

スケルトンデータにおける構造的関係を捉える際、従来のCNN/RNNパイプラインで生じる情報損失の制限を解消すること。
関節および線分ベースの空間的構成を明示的に学習することで、人体スケルトンの関係的モデリングを向上させること。
再帰的関係的ネットワークと多層LSTMを組み合わせることで、時間的特徴抽出を改善すること。
適応的注意モジュールを用いて、特定の行動に関連する顕著な身体部位に動的に焦点を当てる仕組みを実装すること。
標準的なスケルトンベースの行動認識ベンチマークで最先端の性能を達成すること。

提案手法

1フレーム内の関節間の空間的関係をモデル化するため、再帰的関係的ネットワーク（RRN）を用いる。これにより、構造的配置を捉える。
2ストリームアーキテクチャを採用し、関節間および接続された関節が形成する線分間の関係を同時に学習することで、幾何学的補完性を活用する。
多層長短期記憶（LSTM）ネットワークを用いて、順序的なスケルトンデータを処理し、時間的ダイナミクスを抽出する。
適応的注意モジュールにより、特定の行動に関連する顕著な身体部位を強調表示し、特徴の識別性を向上させる。
空間的関係的特徴と時間的シーケンスをエンドツーエンドで統合し、共同最適化を実現する。

実験結果

リサーチクエスチョン

RQ1従来のCNN/RNNパイプラインで失われる構造的情報を保持することで、関係的インダクティブバイアスがスケルトンベースの行動認識を改善できるか？
RQ2スケルトンにおける関節および線分の両方の関係をモデリングすることで、行動認識のための特徴表現がどのように向上するか？
RQ3適応的注意メカニズムが、識別的な身体部位に焦点を当てるため、性能向上にどの程度寄与するか？
RQ4関節と線分という異なる幾何的構造を処理する2ストリームアーキテクチャは、単一ストリームアプローチに比べてより優れた関係的モデリングを実現できるか？
RQ5標準的なスケルトンベースの行動認識ベンチマークにおいて、ARRN-LSTMは最先端手法と比較してどのように差をつけるか？

主な発見

提案されたARRN-LSTMは、複数のベンチマークデータセットで競争力ある性能を示し、最先端の結果を達成した。
2ストリームアーキテクチャにより、関節と線分からの補完的幾何パターンを捉えることで、関係的モデリングが顕著に向上した。
適応的注意モジュールにより、行動に関連する身体部位に動的に焦点を当てるため、認識精度が向上した。
空間的モデリングにRRNを、時間的モデリングに多層LSTMを統合することで、優れた特徴表現が得られた。
広範な実験により、提案手法の有効性が多様な行動認識シナリオにおいて確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。