QUICK REVIEW

[論文レビュー] Investigation of Different Skeleton Features for CNN-based 3D Action Recognition

Zewei Ding, Pichao Wang|arXiv (Cornell University)|May 2, 2017

Human Pose and Action Recognition被引用数 25

ひとこと要約

本稿では、関節同士の距離、ベクトル、方向、線分のなす角度といった多様な空間的スケルトン特徴を、CNNを用いた3次元行動認識のためのテクスチャ色画像に符号化する手法を提案する。複数の特徴タイプ、関節選択戦略、符号化手法を検討することで、クロスビュー設定下でNTU RGB+Dデータセットにおいて最先端の82.31%の精度を達成し、従来のCNNおよびRNNベースの手法を上回った。

ABSTRACT

Deep learning techniques are being used in skeleton based action recognition tasks and outstanding performance has been reported. Compared with RNN based methods which tend to overemphasize temporal information, CNN-based approaches can jointly capture spatio-temporal information from texture color images encoded from skeleton sequences. There are several skeleton-based features that have proven effective in RNN-based and handcrafted-feature-based methods. However, it remains unknown whether they are suitable for CNN-based approaches. This paper proposes to encode five spatial skeleton features into images with different encoding methods. In addition, the performance implication of different joints used for feature extraction is studied. The proposed method achieved state-of-the-art performance on NTU RGB+D dataset for 3D human action analysis. An accuracy of 75.32\% was achieved in Large Scale 3D Human Activity Analysis Challenge in Depth Videos.

研究の動機と目的

基本的な関節位置や距離を超えるより豊富な空間的スケルトン特徴が、CNNベースの3次元行動認識において有効であるかどうかを調査すること。
スケルトンベースの行動認識における特徴抽出にあたって、異なる関節選択戦略の性能に与える影響を評価すること。
空間的スケルトン特徴をテクスチャ色画像に変換する複数の符号化手法を比較し、より優れた空間時間的表現を実現すること。
符号化されたスケルトン特徴に基づいて訓練されたCNNフレームワークを用いて、NTU RGB+Dデータセットで最先端の性能を達成すること。
異なる特徴タイプや符号化方式で訓練された複数のCNNモデルのスコア統合の有効性を検証すること。

提案手法

2次元および3次元の関節座標から、関節同士の距離（JJd）、関節同士のベクトル（JJv）、関節同士の方向（JJo）、関節線分距離（JLd）、線分同士のなす角度（LLa）の5種類の空間的スケルトン特徴を抽出した。
情報量の多い関節の組み合わせを優先するための3つの関節選択戦略（JS1、JS2、JS3）を適用し、JS3が優れた性能を示した。
色が特徴の大きさを表し、空間的配置が関節間の関係性を符号化するように、複数の符号化手法（EM1、EM2、EM3）を用いて各特徴タイプをテクスチャ色画像に変換した。
Caffeを用い、ステップワイズな学習率スケジュールを適用した確率的勾配降下法で、各符号化画像タイプごとに個別のCNNモデルを訓練した。
複数のCNNからの分類スコアを要素ごとの乗算により統合し、認識精度を向上させた。
ポーズのばらつきの影響を軽減するため、背骨長スケーリングを用いて関節座標を正規化し、ボディ座標系に変換した。

実験結果

リサーチクエスチョン

RQ13次元行動認識のためのテクスチャ画像に符号化された際、どの空間的スケルトン特徴（例：JJd、JJv、JLd）が最も判別性の高い表現を提供するか？
RQ2異なる関節選択戦略（JS1、JS2、JS3）は、CNNベースの行動認識モデルの性能にどのように影響を与えるか？
RQ3スケルトン特徴を色画像に変換する際、どの符号化手法（EM1、EM2、EM3）が空間時間的情報を最も効果的に保持するか？
RQ4異なる特徴タイプおよび符号化方式で訓練された複数のCNNモデルのスコア統合は、全体の認識精度を向上させることができるか？
RQ5ベクトルや角度といったより豊富な空間的特徴は、距離といった単純な特徴を上回る性能を発揮するか？

主な発見

関節同士のベクトル（JJv）特徴は、1つのモデルで最高の69.02%の精度を達成し、統合結果の75.23%に大きく貢献した。
関節線分距離（JLd）特徴が全体として最も優れた性能を示し、最終的な統合モデルで82.31%の精度を達成し、すべてのベースライン手法を上回った。
JS3関節選択戦略は、全特徴タイプにおいてJS1およびJS2を常に上回り、選択的な関節の組み合わせがノイズを低減し、モデルのロバスト性を向上させることを示した。
本手法は、クロスビュー設定下でNTU RGB+Dデータセットにおいて、最先端の82.31%の精度を達成し、ST-LSTM+Trust Gate（77.70%）やJTM（75.20%）といった従来手法を上回った。
異なる特徴タイプおよび符号化方式で訓練された複数のCNNモデルのスコア統合により、個々のモデルに比べて最大10%の性能向上が達成され、マルチモーダル特徴学習の利点が裏付けられた。
テクスチャ符号化画像の使用により、空間的および時間的ダイナミクスが効果的に捉えられ、スケルトンベースの行動認識におけるCNN入力としての有効性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。