QUICK REVIEW

[論文レビュー] Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning

Chenyang Si, Ya Jing|arXiv (Cornell University)|May 7, 2018

Human Pose and Action Recognition参考文献 28被引用数 32

ひとこと要約

本稿では、スケルトンベースの行動認識のための新規モデルSR-TSLを提案する。このモデルは、残差グラフニューラルネットワークによる空間的推論と、スキップクリップLSTMを用いた時系列スタック学習を組み合わせることで、高レベルの空間的構造と詳細な時系列的ダイナミクスを捉える。本手法はNTU RGB+DおよびSYSUデータセットで最先端の性能を達成し、NTUデータセットではクロスサブジェクト設定で最大84.8%、クロスビュー設定で92.4%の正確度を達成。アブレーション解析および収束解析により検証された。

ABSTRACT

Skeleton-based action recognition has made great progress recently, but many problems still remain unsolved. For example, most of the previous methods model the representations of skeleton sequences without abundant spatial structure information and detailed temporal dynamics features. In this paper, we propose a novel model with spatial reasoning and temporal stack learning (SR-TSL) for skeleton based action recognition, which consists of a spatial reasoning network (SRN) and a temporal stack learning network (TSLN). The SRN can capture the high-level spatial structural information within each frame by a residual graph neural network, while the TSLN can model the detailed temporal dynamics of skeleton sequences by a composition of multiple skip-clip LSTMs. During training, we propose a clip-based incremental loss to optimize the model. We perform extensive experiments on the SYSU 3D Human-Object Interaction dataset and NTU RGB+D dataset and verify the effectiveness of each network of our model. The comparison results illustrate that our approach achieves much better results than state-of-the-art methods.

研究の動機と目的

既存のスケルトンベースの行動認識手法における空間的構造表現の欠如と、詳細な時系列的ダイナミクスのモデリング不足に対処すること。
長時間のスケルトンシーケンスにわたり、微細な時系列的ダイナミクスを捉えることで、長期的シーケンスモデリングを改善すること。
新規な訓練目的を導入することで、モデルの収束を加速させ、認識正確度を向上させること。
空間的推論と時系列スタック学習の各コンponentsが個別および統合的にどのように性能に寄与するかを検証すること。

提案手法

空間的推論ネットワーク（SRN）は、残差グラフニューラルネットワーク（RGNN）を用い、各ボディパーツをノードとして扱い、ボディパーツ間の高レベルな空間的構造をモデル化する。
時系列スタック学習ネットワーク（TSLN）は、複数のスキップクリップLSTMを用い、クリップ間で隠れ状態を共有することで、短時間のダイナミクスの階層的モデリングを可能にする。
各クリップの初期隠れ状態は、すべての直前クリップの最終隠れ状態の和として初期化され、長距離依存性が保持される。
スタック学習プロセスを最適化するため、クリップベースの段階的損失を導入する。これにより収束性と性能が向上する。
時系列表現を豊かにするために、2ストリームアーキテクチャを用い、位置と速度の両シーケンスを処理する。
本手法は、NTU RGB+DおよびSYSU 3D Human-Object Interactionデータセットからのスケルトンシーケンスを、エンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1グラフニューラルネットワークは、1枚のスケルトンフレームにおけるボディパーツ間の高レベルな空間的構造を効果的にモデル化できるか？
RQ2スキップクリップLSTMのスタックは、標準的なRNNと比較して、長時間のスケルトンシーケンスにおける詳細な時系列的ダイナミクスをよりよく捉えることができるか？
RQ3提案されたクリップベースの段階的損失は、訓練の収束性と認識正確度を向上させるか？
RQ4空間的推論と時系列スタック学習のコンponentsが、ベンチマークデータセット上で個別および統合的にどのように性能に寄与するか？

主な発見

提案されたSR-TSLモデルは、NTU RGB+Dのクロスサブジェクトベンチマークで84.8%の正確度を達成し、先行する最先端手法を上回った。
クロスビュー設定では、SR-TSLは92.4%の正確度に達し、カメラビュー間での一般化性能が優れていることを示した。
アブレーションスタディにより、空間的推論ネットワークと時系列スタック学習ネットワークの両方が性能向上に顕著に寄与することが確認された。特に、後者の影響がより強いことが示された。
クリップベースの段階的損失は収束を加速させ、特に初期訓練段階で最終正確度を向上させた。
RGNNにおけるクリップ長さ$d \geq 6$およびタイムステップ$T \geq 5$で性能が飽和し、それ以上の値では利益が減少することが示された。
位置と速度の両シーケンスを処理する2ストリームアーキテクチャは、単一モダリティを用いる場合よりも優れた結果をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。