Skip to main content
QUICK REVIEW

[論文レビュー] A Fusion of Appearance based CNNs and Temporal evolution of Skeleton with LSTM for Daily Living Action Recognition.

Srijan Das, Michal Koperski|arXiv (Cornell University)|Feb 1, 2018
Human Pose and Action Recognition参考文献 39被引用数 8
ひとこと要約

本論文は、日常動作認識の性能を向上させるために、外見ベースのCNNとスケルトンベースのLSTMネットワークを新しく融合する手法を提案する。RGBフレームからの静的外見特徴と、スケルトン系列の長期的時間的変化を組み合わせることで、CAD60およびMSRDailyActivity3Dデータセットで最先端の性能を達成し、特に運動およびポーズパターンが類似する動作の認識が向上する。

ABSTRACT

In this paper, we propose efficient method which combines skeleton information and appearance features for daily-living action recognition. Many RGB methods focus only on short term temporal information obtained from optical flow. Skeleton based methods on the other hand show that modeling long term skeleton evolution improves action recognition accuracy. In this paper we propose to fuse skeleton based LSTM classifier which models temporal evolution of skeleton with deep CNN which models static appearance. We show that such fusion improves recognition of actions with similar motion and pose footprint, which is especially crucial in daily-living action recognition scenario. We validate our approach on public available CAD60 and MSRDailyActivity3D, achieving state-of-the art results.

研究の動機と目的

  • 運動およびポーズのパターンが類似する日常動作を認識する課題に対処すること。
  • スケルトンデータの長期的時間的変化をモデリングすることで、動作認識の正確性を向上させること。
  • 外見のみでは視覚的に類似するため認識が困難な状況において、性能を向上させること。
  • 深層CNNによる外見特徴とLSTMによる時間的スケルトンダイナミクスを組み合わせた、頑健な統合フレームワークの開発。

提案手法

  • 本手法は、RGBフレームからの静的外見特徴を抽出するために深層畳み込みニューラルネットワーク(CNN)を用いる。
  • 別個のLSTMネットワークがスケルトン系列を処理し、人体関節の長期的時間的変化をモデリングする。
  • CNNブランチとLSTMブランチの特徴を特徴空間において早期に統合し、共同表現学習を可能にする。
  • 分類には、ソフトマックスを用いた全結合層を用い、動作認識を行う。
  • 標準的な最適化手法を用いて、公開データセット上でエンドツーエンドでモデルを訓練する。

実験結果

リサーチクエスチョン

  • RQ1外見ベースのCNN特徴とスケルトン系列の時間的モデリングを統合することで、日常動作の認識が向上するか?
  • RQ2スケルトンの長期的進化をモデリングすることで、運動およびポーズが類似する動作の認識性能がどのように向上するか?
  • RQ3外見特徴とスケルトン特徴を早期に統合することは、モダリティ固有の統合や後期統合アプローチを上回る程度の効果を示すか?
  • RQ4提案手法は、CAD60およびMSRDailyActivity3Dといったベンチマークデータセットで最先端の性能を達成するか?

主な発見

  • 提案された統合手法は、CAD60データセットで最先端の性能を達成し、従来手法を上回る動作認識の正確性を示した。
  • MSRDailyActivity3Dデータセットでは、運動およびポーズパターンが類似する動作の認識において顕著な向上が確認された。
  • LSTMによる長期的スケルトン進化の統合は、複雑な日常動作の認識を顕著に向上させた。
  • アブレーションスタディの結果、CNNとLSTM特徴の早期統合が、後期統合や個別モダリティの使用よりも優れた性能を発揮することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。