[論文レビュー] Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep cnn
この論文は3Dスケルトンビデオシーケンスを翻訳-スケール不変のカラー画像へマッピングし、マルチスケールCNNで分類することで、NTU RGB-D、UTD-MHAD、MSRC-12、G3Dデータセットで最先端の結果を達成します。
This paper presents an image classification based approach for skeleton-based video action recognition problem. Firstly, A dataset independent translation-scale invariant image mapping method is proposed, which transformes the skeleton videos to colour images, named skeleton-images. Secondly, A multi-scale deep convolutional neural network (CNN) architecture is proposed which could be built and fine-tuned on the powerful pre-trained CNNs, e.g., AlexNet, VGGNet, ResNet etal.. Even though the skeleton-images are very different from natural images, the fine-tune strategy still works well. At last, we prove that our method could also work well on 2D skeleton video data. We achieve the state-of-the-art results on the popular benchmard datasets e.g. NTU RGB+D, UTD-MHAD, MSRC-12, and G3D. Especially on the largest and challenge NTU RGB+D, UTD-MHAD, and MSRC-12 dataset, our method outperforms other methods by a large margion, which proves the efficacy of the proposed method.
研究の動機と目的
- データセットに依存しない翻訳-スケール不変の画像マッピングを開発し、3Dスケルトンビデオをカラー画像(スケルトン画像)へ変換する。
- 事前学習済みCNN(例:AlexNet、VGGNet、ResNet)でファイン-tuning可能なスケルトン画像分類用のマルチスケールCNNアーキテクチャを設計する。
- このアプローチを2Dスケルトンデータへ拡張し、競争力のある性能を実証する。
- 大規模ベンチマークで手法を評価し、構成要素とマッピングの広範な分析を提供する。
提案手法
- 翻訳-スケール不変の画像マッピングは、1フレームあたりの3Dジョイント座標をRGBチャンネルに変換し、フレーム表現を連結してアクションシーケンスごとのカラー画像を形成する。
- マルチスケールCNNアーキテクチャは、異なる入力スケール間で共有ウェイトを持つ事前学習済みCNNの上に構築され、グローバルプーリングにより固定サイズの特徴を生成する。
- ソフトマックス損失を、すべてのスケールの出力とその平均に対して適用してネットワークを訓練する。
- データ拡張には、3D座標回転、ガウスノイズ、ビデオクロップを含めて頑健性を高める。
- 訓練は、モーメント付き確率的勾配降下法を用い、事前学習済みの重み(AlexNet/VGG/ResNet)から開始し、学習率スケジュールとCaffe実装を用いる。
実験結果
リサーチクエスチョン
- RQ1翻訳-スケール不変な画像マッピングは、翻訳とスケール変化に頑健なデータセットに依存しない3Dスケルトンビデオのエンコードを提供できるか。
- RQ2マルチスケールCNNは、スケルトンシーケンスから得られたスケルトン画像を入力とした場合、アクション認識性能を向上させるか。
- RQ3提案手法は3Dと比較して2Dスケルトンデータへどの程度転移可能であり、どの程度まで事前学習済みCNNに依存するか。
主な発見
- 本手法はNTU RGB-D、UTD-MHAD、MSRC-12、G3Dベンチマークで最先端の結果を達成する。
- NTU RGB-Dでは、提案手法がResNet152を用いた3-scale入力で85.02%のクロスサブジェクト精度と92.3%のクロスビュー精度を達成。
- UTD-MHADでは、アプローチが96.27%の精度を達成し、いくつかのベースラインを上回る。
- MSRC-12では、手法が99.41%の精度を達成し、競合手法を上回る。
- G3Dでは、手法が93.9%の精度を達成し、最先端モデルと競合する。
- 比較から、翻訳-スケール不変マッピングとデータ拡張が性能向上に顕著に寄与し、マルチスケールCNNはデータセットを通じて一貫して結果を改善することが示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。