QUICK REVIEW

[論文レビュー] Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep cnn

Bo Li, Mingyi He|arXiv (Cornell University)|Apr 19, 2017

Human Pose and Action Recognition参考文献 33被引用数 51

ひとこと要約

この論文は3Dスケルトンビデオシーケンスを翻訳-スケール不変のカラー画像へマッピングし、マルチスケールCNNで分類することで、NTU RGB-D、UTD-MHAD、MSRC-12、G3Dデータセットで最先端の結果を達成します。

ABSTRACT

This paper presents an image classification based approach for skeleton-based video action recognition problem. Firstly, A dataset independent translation-scale invariant image mapping method is proposed, which transformes the skeleton videos to colour images, named skeleton-images. Secondly, A multi-scale deep convolutional neural network (CNN) architecture is proposed which could be built and fine-tuned on the powerful pre-trained CNNs, e.g., AlexNet, VGGNet, ResNet etal.. Even though the skeleton-images are very different from natural images, the fine-tune strategy still works well. At last, we prove that our method could also work well on 2D skeleton video data. We achieve the state-of-the-art results on the popular benchmard datasets e.g. NTU RGB+D, UTD-MHAD, MSRC-12, and G3D. Especially on the largest and challenge NTU RGB+D, UTD-MHAD, and MSRC-12 dataset, our method outperforms other methods by a large margion, which proves the efficacy of the proposed method.

研究の動機と目的

データセットに依存しない翻訳-スケール不変の画像マッピングを開発し、3Dスケルトンビデオをカラー画像（スケルトン画像）へ変換する。
事前学習済みCNN（例：AlexNet、VGGNet、ResNet）でファイン-tuning可能なスケルトン画像分類用のマルチスケールCNNアーキテクチャを設計する。
このアプローチを2Dスケルトンデータへ拡張し、競争力のある性能を実証する。
大規模ベンチマークで手法を評価し、構成要素とマッピングの広範な分析を提供する。

提案手法

翻訳-スケール不変の画像マッピングは、1フレームあたりの3Dジョイント座標をRGBチャンネルに変換し、フレーム表現を連結してアクションシーケンスごとのカラー画像を形成する。
マルチスケールCNNアーキテクチャは、異なる入力スケール間で共有ウェイトを持つ事前学習済みCNNの上に構築され、グローバルプーリングにより固定サイズの特徴を生成する。
ソフトマックス損失を、すべてのスケールの出力とその平均に対して適用してネットワークを訓練する。
データ拡張には、3D座標回転、ガウスノイズ、ビデオクロップを含めて頑健性を高める。
訓練は、モーメント付き確率的勾配降下法を用い、事前学習済みの重み（AlexNet/VGG/ResNet）から開始し、学習率スケジュールとCaffe実装を用いる。

実験結果

リサーチクエスチョン

RQ1翻訳-スケール不変な画像マッピングは、翻訳とスケール変化に頑健なデータセットに依存しない3Dスケルトンビデオのエンコードを提供できるか。
RQ2マルチスケールCNNは、スケルトンシーケンスから得られたスケルトン画像を入力とした場合、アクション認識性能を向上させるか。
RQ3提案手法は3Dと比較して2Dスケルトンデータへどの程度転移可能であり、どの程度まで事前学習済みCNNに依存するか。

主な発見

本手法はNTU RGB-D、UTD-MHAD、MSRC-12、G3Dベンチマークで最先端の結果を達成する。
NTU RGB-Dでは、提案手法がResNet152を用いた3-scale入力で85.02%のクロスサブジェクト精度と92.3%のクロスビュー精度を達成。
UTD-MHADでは、アプローチが96.27%の精度を達成し、いくつかのベースラインを上回る。
MSRC-12では、手法が99.41%の精度を達成し、競合手法を上回る。
G3Dでは、手法が93.9%の精度を達成し、最先端モデルと競合する。
比較から、翻訳-スケール不変マッピングとデータ拡張が性能向上に顕著に寄与し、マルチスケールCNNはデータセットを通じて一貫して結果を改善することが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。