QUICK REVIEW

[論文レビュー] SkeleMotion: A New Representation of Skeleton Joint Sequences Based on Motion Information for 3D Action Recognition

Carlos Caetano, Jessica Sena|arXiv (Cornell University)|Jul 30, 2019

Human Pose and Action Recognition参考文献 42被引用数 212

ひとこと要約

SkeleMotion は、複数の時間スケールにわたる骨格ジョイントの運動の大きさと向きを時系列ダイナミクスとして符号化し、tiny CNN への入力として使用することで、空間的骨格表現と組み合わせた場合 NTU RGB+D 120 で最先端の結果を達成します。

ABSTRACT

Due to the availability of large-scale skeleton datasets, 3D human action recognition has recently called the attention of computer vision community. Many works have focused on encoding skeleton data as skeleton image representations based on spatial structure of the skeleton joints, in which the temporal dynamics of the sequence is encoded as variations in columns and the spatial structure of each frame is represented as rows of a matrix. To further improve such representations, we introduce a novel skeleton image representation to be used as input of Convolutional Neural Networks (CNNs), named SkeleMotion. The proposed approach encodes the temporal dynamics by explicitly computing the magnitude and orientation values of the skeleton joints. Different temporal scales are employed to compute motion values to aggregate more temporal dynamics to the representation making it able to capture longrange joint interactions involved in actions as well as filtering noisy motion values. Experimental results demonstrate the effectiveness of the proposed representation on 3D action recognition outperforming the state-of-the-art on NTU RGB+D 120 dataset.

研究の動機と目的

ジョイントの運動情報を明示的にモデル化することで、骨格ベースの 3D アクション認識の動機付けと精度向上を図る。
運動の大きさと向きを符号化する新規の骨格画像表現（SkeleMotion）を提案する。
長距離のジョイント相互作用を捉え、ノイズを低減するためにマルチスケールの時系列集約を活用する。
コンパクトな表現から迅速に学習できる軽量な CNN 分類器を提供する。
SkeleMotion を用いた場合、NTU RGB+D 60/120 で最先端または競合的な結果を示し、空間表現との融合を含む。

提案手法

深さ優先スケルトン走査によって事前定義されたジョイント鎖 C を構築し、空間的関係を保持する。
フレームごとにジョイント座標 S を計算し、ラグ d によるフレーム差分から運動構造 D を導出する（ D = S_{c,t+d} - S_c）。
D から大きさ M と向き θ を導出し、θ は xy, yz, zx 成分から計算され、ノイズを抑えるために大きさ閾値 m でフィルタリングする。
得られた M および θ の表現を正規化・リサイズして SkeleMotion 画像（C x T x チャンネル) を形成する。
アクションクラシフィケーションのため、Scratch から学習する 3 層畳み込み + 2 層全結合の tiny CNN を適用する。
Temporal Scale Aggregation (TSA) を導入し、複数の時系列ラグ d にわたって D, M, θ を計算し、結果を積み重ねて時間的ダイナミクスを豊かにする。

実験結果

リサーチクエスチョン

RQ1複数の時間スケールにわたる運動情報（大きさと向き）を明示的に利用することは、既存の骨格画像表現より骨格ベースのアクション認識を改善するか。
RQ2マルチスケールの時間的集約は長距離ジョイントの相互作用を捉え、ノイズの多い運動信号を減らすのに役立つか。
RQ3SkeleMotion は NTU RGB+D 60 および 120 データセットで、空間表現との融合を含む場合、最先端の骨格画像ベース手法と比較してどのようなパフォーマンスを示すか。

主な発見

Magnitude (TSA) を用いた SkeleMotion は NTU RGB+D 60 において複数のベースラインを上回る強力なクロスビュー精度を達成する。
Magnitude (TSA) を用いた SkeleMotion は NTU RGB+D 60 で TSA 付きのクロスサブジェクトが 69.6%、クロスビューが 80.1% の精度を達成する。
Orientation (TSA) のみの使用は競争力のある結果を示すが、Magnitude (TSA) の方が一般的に良い性能を示す；Magnitude+Orientation (TSA) の組み合わせは精度をさらに向上させる。
Yang らの TSSI 手法との融合は、NTU RGB+D 60 で早期および後期フュージョン設定のいずれにおいても、いくつかのベースラインを上回る結果を生む。
NTU RGB+D 120 では Magnitude+Orientation (TSA) に基づく結果は最先端の LSTM ベース手法と競合し、Yang らとの融合時には最先端に近い性能を達成し、多数の prior skeleton-based 方法を上回る。
この研究は、明示的な運動モデリングと TSA が、運動をナイーブに扱う骨格表現やベースラインのモーションエンコードよりも顕著な改善をもたらすことを示している。
SkeleMotion のコードは再現性のために https://github.com/carloscaetano/skeleton-images で公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。