[論文レビュー] Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks
本稿では、行動認識のための時間的ダイナミクスと人体骨格の空間的構成を両方モデル化する2ストリームの再帰ニューラルネットワーク(RNN)を提案する。時間的進化と空間的関節関係のための別々のRNNストリームを用い、3次元データ拡張を組み合わせることで、NTU RGB+D、SBU Interaction、ChaLearn Gestureデータセットで最先端の性能を達成し、従来手法よりも最大2.1%の精度向上を実現した。
Recently, skeleton based action recognition gains more popularity due to cost-effective depth sensors coupled with real-time skeleton estimation algorithms. Traditional approaches based on handcrafted features are limited to represent the complexity of motion patterns. Recent methods that use Recurrent Neural Networks (RNN) to handle raw skeletons only focus on the contextual dependency in the temporal domain and neglect the spatial configurations of articulated skeletons. In this paper, we propose a novel two-stream RNN architecture to model both temporal dynamics and spatial configurations for skeleton based action recognition. We explore two different structures for the temporal stream: stacked RNN and hierarchical RNN. Hierarchical RNN is designed according to human body kinematics. We also propose two effective methods to model the spatial structure by converting the spatial graph into a sequence of joints. To improve generalization of our model, we further exploit 3D transformation based data augmentation techniques including rotation and scaling transformation to transform the 3D coordinates of skeletons during training. Experiments on 3D action recognition benchmark datasets show that our method brings a considerable improvement for a variety of actions, i.e., generic actions, interaction activities and gestures.
研究の動機と目的
- 既存のRNNベースの手法が骨格シーケンス内の時間的依存性のみをモデル化しており、関節の空間的構成を無視するという限界を是正すること。
- 骨格グラフをシーケンスに変換したRNNを用いて、体の関節間の空間的関係を明示的にモデル化することで、行動認識の精度を向上させること。
- 訓練中に3次元変換(回転、スケーリング、シアー)を用いたデータ拡張を適用することで、モデルの汎化性能を向上させること。
- 時間的および空間的表現を遅延ファージョンで統合する、統一的かつエンドツーエンドで学習可能なアーキテクチャを構築すること。
- 一般的な行動、相互作用、ジェスチャーを含む多様な行動認識ベンチマークで優れた性能を示すことを目的とする。
提案手法
- 本手法は2ストリームRNNアーキテクチャを採用する。1つのストリームは、時間軸に沿った関節座標シーケンスを用いて、スタックドまたは階層的RNNで時間的ダイナミクスを処理する。
- 空間ストリームは、RNNに供給する前に、空間トポロジーを保持する2通りの戦略を用いて3次元骨格グラフを関節のシーケンスに変換する。
- 階層的RNNは、人体の運動学的構造に基づいて特に設計されており、パラメータ数を削減しながらも、マルチレベルの運動パターンを捉えることができる。
- 最終分類のためのソフトマックス層の前に、時間的ストリームと空間的ストリームの特徴を遅延ファージョンで統合する。
- 訓練中に、3次元関節座標に対してランダムに回転、スケーリング、シアー変換を適用することで、3次元データ拡張を実施し、モデルのロバストネスと汎化性能を向上させる。
- ネットワーク全体はエンドツーエンドで学習可能であり、時間的バックプロパゲーションを用いて両ストリームを同時に最適化する。

実験結果
リサーチクエスチョン
- RQ1骨格の時間的ダイナミクスと空間的構成の両方をモデル化することで、時間的シーケンスのみを扱う手法よりも行動認識の性能が向上するか?
- RQ2スタックドRNNと階層的RNNの異なるアーキテクチャが、骨格シーケンスのモデル化において性能とパラメータ効率に与える影響は何か?
- RQ3空間的骨格グラフをシーケンスに変換することで、RNNを用いた空間的依存関係のモデル化がどの程度有効か?
- RQ43次元データ拡張は、骨格ベースの行動認識における汎化性能とロバストネスをどの程度向上させるか?
- RQ5提案された2ストリームRNNアーキテクチャは、多様な行動認識ベンチマークで最先端の性能を達成するか?
主な発見
- NTU RGB+Dデータセットでは、クロスサブジェクト評価で71.3%、クロスビュー評価で79.5%の精度を達成し、以前の最先端手法(Trust Gate ST-LSTM)をそれぞれ2.1%および1.8%上回った。
- SBU Interactionデータセットでは、94.8%の精度を達成し、最高の既存RNNベース手法よりも1.5%高く、最高のハンドクラフト特徴量手法よりも7.9%も高い。
- ChaLearnジェスチャー認識データセットでは、91.7%のF1スコアを達成し、以前の最先端手法(VideoDarwin)をF1スコアで16%以上上回った。
- ハイパーパramータの選択に強く依存せず、時間ウィンドウサイズ(τ)の広い範囲で性能が安定しており、τが特定の範囲内にあるときに最適な性能を示した。
- 階層的RNN構造は、スタックドRNNと比較してパラメータ数を削減しながらも、性能を維持または向上させ、効率性と有効性を示した。
- 3次元データ拡張技術(回転、スケーリング、シアー)は、特に小さなデータセットにおいて、汎化性能の向上と過学習の防止に顕著に寄与した。
![Figure 2: (a) A two-layer stacked RNN for sequence classification. (b) A LSTM block with input, output, and forget gates [ 17 ] .](https://ar5iv.labs.arxiv.org/html/1704.02581/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。