QUICK REVIEW

[論文レビュー] Skeleton-based Action Recognition Using LSTM and CNN

Chuankun Li, Pichao Wang|arXiv (Cornell University)|Jul 6, 2017

Human Pose and Action Recognition参考文献 2被引用数 28

ひとこと要約

本稿では、3次元畳み込みニューラルネットワーク（3D CNN）と長短期記憶ネットワーク（LSTM）の特徴を融合することで、空間的および時間的情報を効果的に捉えるスケルトンベースの行動認識手法を提案する。LSTMに空間的特徴（相対的位置、関節間距離、線分からの距離）を、CNNに時間的表現（関節軌跡マップおよび距離マップ）を入力し、その後、スコアの後期融合（特にCNNとLSTM間の複数回融合スコア）を実施することで、クロスビュー評価においてNTU RGB+Dで90.10%の最先端性能を達成した。また、大規模チャレンジでは87.40%の精度を示した。

ABSTRACT

Recent methods based on 3D skeleton data have achieved outstanding performance due to its conciseness, robustness, and view-independent representation. With the development of deep learning, Convolutional Neural Networks (CNN) and Long Short Term Memory (LSTM)-based learning methods have achieved promising performance for action recognition. However, for CNN-based methods, it is inevitable to loss temporal information when a sequence is encoded into images. In order to capture as much spatial-temporal information as possible, LSTM and CNN are adopted to conduct effective recognition with later score fusion. In addition, experimental results show that the score fusion between CNN and LSTM performs better than that between LSTM and LSTM for the same feature. Our method achieved state-of-the-art results on NTU RGB+D datasets for 3D human action analysis. The proposed method achieved 87.40% in terms of accuracy and ranked $1^{st}$ place in Large Scale 3D Human Activity Analysis Challenge in Depth Videos.

研究の動機と目的

3次元スケルトンシーケンスを2次元画像表現に変換する際、CNNベースの手法が時間的情報を十分に保持できないという制限に対処すること。
LSTMを含むRNNが、複数の特徴タイプを統合する際に、有用な情報を効果的に区別できないという問題を克服すること。
CNN（空間的特徴抽出）とLSTM（時間的モデリング）の補完的特長を活用することで、行動認識の精度を向上させること。
スケルトンデータを用いた3次元人体行動認識のベンチマークデータセットで最先端の性能を達成すること。

提案手法

相対関節位置（R）、ペアワイズ関節距離（J）、スケルトンラインからの距離（L）の3種類の空間ドメイン特徴を抽出し、それぞれ別々のLSTMネットワークに供給する。
関節軌跡マップ（JTM）と関節距離マップ（JDM）を3平面（xy、xz、yz）で生成し、それぞれ別々の2次元CNNに供給する。
複数のCNNおよびLSTMモデルからの予測を組み合わせる後期スコア融合を適用し、平均または最大値融合よりも優れた性能を示す複数回スコア融合が有効であることを示した。
2段階の融合戦略を採用：第1に、異なるLSTMチャネル（R、J、L）間のスコア統合、第2に、同じ特徴タイプのためのCNNとLSTM出力間のスコア統合。
10ストリームアーキテクチャを採用：空間特徴用に3つのLSTMストリーム、時間的マップ用に7つのCNNストリームを設け、各ストリームを独立して学習後、統合する。
スコア統合に要素ごとの乗算を適用することで、補完的情報を強化し、単純な平均化やマックスプーリングよりも精度とロバスト性を向上させた。

実験結果

リサーチクエスチョン

RQ1同じモデルタイプ内での統合と比較して、CNNとLSTMモデル間の後期スコア統合は行動認識の精度向上に寄与するか？
RQ2LSTMに複数の空間的特徴タイプ（R、J、L）を用いることで、単一の特徴タイプを使用する場合よりも性能が向上するか？
RQ3CNNによる時間的マップ処理とLSTMによる空間的特徴処理の組み合わせは、補完的な空間時間的パターンを効果的に捉えられるか？
RQ4CNNとLSTMストリームからの乗算スコア統合は、平均または最大値統合戦略を上回る性能を示すか？
RQ5提案手法は、NTU RGB+Dや大規模チャレンジのような標準ベンチマークで最先端の性能を達成するか？

主な発見

提案手法は、NTU RGB+Dデータセットのクロスビュースプリットで90.10%の精度を達成し、表2に掲載されたすべての先行手法を上回った。
深度動画における大規模3次元人体行動分析チャレンジで87.40%の精度を記録し、第1位となった。これは、実世界での有効性を裏付けるものである。
CNNとLSTMモデル間のスコア統合（All-Mul-Score融合）により90.10%の精度が達成され、平均（89.03%）や最大値（86.03%）統合戦略を顕著に上回った。
CNNに関節距離マップ（JDM-xyz）を用い、LSTM出力と統合することで（R-JDM-xyz-Mul-Score）、精度が83.05%まで向上した。これは、モデル間統合の価値を示している。
R、J、L特徴をLSTMモデルで乗算スコア統合により統合した（R-J-L-Mul-Score）ことで、クロスビュー評価で85.35%の精度を達成した。これは、適切に統合された多様な特徴の統合が有効であることを示している。
手作業で特徴を抽出する手法（例：Lie Group、Dynamic Skeletons）およびディープラーニングモデル（例：ST-LSTM、Clips+CNN+MTLN）を上回る性能を示し、一般化能力と性能の優位性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。