Skip to main content
QUICK REVIEW

[論文レビュー] Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep cnn

Bo Li, Mingyi He|arXiv (Cornell University)|Apr 19, 2017
Human Pose and Action Recognition参考文献 33被引用数 51
ひとこと要約

この論文は3Dスケルトンビデオシーケンスを翻訳-スケール不変のカラー画像へマッピングし、マルチスケールCNNで分類することで、NTU RGB-D、UTD-MHAD、MSRC-12、G3Dデータセットで最先端の結果を達成します。

ABSTRACT

This paper presents an image classification based approach for skeleton-based video action recognition problem. Firstly, A dataset independent translation-scale invariant image mapping method is proposed, which transformes the skeleton videos to colour images, named skeleton-images. Secondly, A multi-scale deep convolutional neural network (CNN) architecture is proposed which could be built and fine-tuned on the powerful pre-trained CNNs, e.g., AlexNet, VGGNet, ResNet etal.. Even though the skeleton-images are very different from natural images, the fine-tune strategy still works well. At last, we prove that our method could also work well on 2D skeleton video data. We achieve the state-of-the-art results on the popular benchmard datasets e.g. NTU RGB+D, UTD-MHAD, MSRC-12, and G3D. Especially on the largest and challenge NTU RGB+D, UTD-MHAD, and MSRC-12 dataset, our method outperforms other methods by a large margion, which proves the efficacy of the proposed method.

研究の動機と目的

  • データセットに依存しない翻訳-スケール不変の画像マッピングを開発し、3Dスケルトンビデオをカラー画像(スケルトン画像)へ変換する。
  • 事前学習済みCNN(例:AlexNet、VGGNet、ResNet)でファイン-tuning可能なスケルトン画像分類用のマルチスケールCNNアーキテクチャを設計する。
  • このアプローチを2Dスケルトンデータへ拡張し、競争力のある性能を実証する。
  • 大規模ベンチマークで手法を評価し、構成要素とマッピングの広範な分析を提供する。

提案手法

  • 翻訳-スケール不変の画像マッピングは、1フレームあたりの3Dジョイント座標をRGBチャンネルに変換し、フレーム表現を連結してアクションシーケンスごとのカラー画像を形成する。
  • マルチスケールCNNアーキテクチャは、異なる入力スケール間で共有ウェイトを持つ事前学習済みCNNの上に構築され、グローバルプーリングにより固定サイズの特徴を生成する。
  • ソフトマックス損失を、すべてのスケールの出力とその平均に対して適用してネットワークを訓練する。
  • データ拡張には、3D座標回転、ガウスノイズ、ビデオクロップを含めて頑健性を高める。
  • 訓練は、モーメント付き確率的勾配降下法を用い、事前学習済みの重み(AlexNet/VGG/ResNet)から開始し、学習率スケジュールとCaffe実装を用いる。

実験結果

リサーチクエスチョン

  • RQ1翻訳-スケール不変な画像マッピングは、翻訳とスケール変化に頑健なデータセットに依存しない3Dスケルトンビデオのエンコードを提供できるか。
  • RQ2マルチスケールCNNは、スケルトンシーケンスから得られたスケルトン画像を入力とした場合、アクション認識性能を向上させるか。
  • RQ3提案手法は3Dと比較して2Dスケルトンデータへどの程度転移可能であり、どの程度まで事前学習済みCNNに依存するか。

主な発見

  • 本手法はNTU RGB-D、UTD-MHAD、MSRC-12、G3Dベンチマークで最先端の結果を達成する。
  • NTU RGB-Dでは、提案手法がResNet152を用いた3-scale入力で85.02%のクロスサブジェクト精度と92.3%のクロスビュー精度を達成。
  • UTD-MHADでは、アプローチが96.27%の精度を達成し、いくつかのベースラインを上回る。
  • MSRC-12では、手法が99.41%の精度を達成し、競合手法を上回る。
  • G3Dでは、手法が93.9%の精度を達成し、最先端モデルと競合する。
  • 比較から、翻訳-スケール不変マッピングとデータ拡張が性能向上に顕著に寄与し、マルチスケールCNNはデータセットを通じて一貫して結果を改善することが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。