QUICK REVIEW

[論文レビュー] Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Sijie Yan, Yuanjun Xiong|arXiv (Cornell University)|Jan 23, 2018

Human Pose and Action Recognition参考文献 43被引用数 596

ひとこと要約

ST-GCNはスケルトン列における空間-時間グラフ畳込みを学習し、アクションを認識する。手作り部品法と比較してKineticsとNTU-RGB+Dで最先端の結果を達成。

ABSTRACT

Dynamics of human body skeletons convey significant information for human action recognition. Conventional approaches for modeling skeletons usually rely on hand-crafted parts or traversal rules, thus resulting in limited expressive power and difficulties of generalization. In this work, we propose a novel model of dynamic skeletons called Spatial-Temporal Graph Convolutional Networks (ST-GCN), which moves beyond the limitations of previous methods by automatically learning both the spatial and temporal patterns from data. This formulation not only leads to greater expressive power but also stronger generalization capability. On two large datasets, Kinetics and NTU-RGBD, it achieves substantial improvements over mainstream methods.

研究の動機と目的

イルミネーションとシーンの変動に対して堅牢性の高いモダリティとしてスケルトンベースのアクション認識を動機付ける。
データから空間的・時間的パターンを自動的に学習する、手工技術のパーツに依存しない汎用的なグラフベースモデルを開発する。
スケルトンのグラフ列で動作するSpatial-Temporal Graph Convolutional Network (ST-GCN) を提案する。
体の部位とダイナミクスのモデリングを改善するための分割戦略とエッジ重み学習を調査する。
従来手法に対して大規模データセットで優れた性能を示す。

提案手法

関節をノード、フレーム内のエッジとフレーム間エッジを含む空間-時間グラフとしてスケルトン列を表現する。
局所的な関節間相互作用と時間的ダイナミクスをモデル化するために、分割された近傍集合を用いた空間-時間グラフ畳込みを適用する。
共有ウェイトを持つ複数のST-GCN層を用い、グローバルプーリングとSoftMax分類子を続ける。
エッジ重みを共有するための定義として、分割戦略（単一ラベル付け、距離、空間構成）を導入する。
異なる関節/エッジの寄与を重み付けする学習可能なエッジ重要度マスクを組み込む。
SGDでエンドツーエンドに訓練する。データ拡張（ランダム移動）とKineticsでのランダムフラグメントサンプリングを使用する。

実験結果

リサーチクエスチョン

RQ1ST-GCNはデータから直接空間-時間パターンを学習することで、手作り部品のスケルトン法に打ち勝つことができるか？
RQ2異なる近傍分割戦略はアクション認識の性能にどのような影響を与えるか？
RQ3学習可能なエッジ重要度重み付けを組み込むと精度は向上するか？
RQ4ST-GCNアプローチはジョイント数やグラフ構造が異なるデータセット（2D OpenPose vs 3D Kinectデータ）に対して一般化可能か？

主な発見

Setting	Top-1	Top-5
Baseline TCN	20.3%	40.0%
Local Convolution	22.0%	43.2%
Uni-labeling	19.3%	37.4%
Distance partitioning*	23.9%	44.9%
Distance Partitioning	29.1%	51.3%
Spatial Configuration	29.9%	52.2%
ST-GCN + Imp.	30.7%	52.8%

Kineticsで、空間構成分割とエッジ重み付けを用いたST-GCNは、Top-1で30.7%、Top-5で52.8%の精度を達成し、ベースラインおよび従来のスケルトンベース手法を上回った。
複数のサブセットを用いた分割戦略は単一ラベル付けを上回り、空間構成が最も高い改善を提供した。
学習可能なエッジ重要度重み付けを追加すると、さらに改善が見られる（Top-1/Top-5で約1%程度）。
NTU-RGB+Dでは、ST-GCNは81.5%（X-Sub）と88.3%（X-View）のトップ1精度を達成し、制約付きデータにおける従来の最先端手法を上回った。
ST-GCNは、スケルトンベースのアクション認識でRGB/フローや手作業特徴を用いる方法を大幅に上回り、制約なし・制約ありのデータセットの両方で優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。