QUICK REVIEW

[論文レビュー] Part-based Graph Convolutional Network for Action Recognition

Kalpit Thakkar, P. J. Narayanan|arXiv (Cornell University)|Sep 13, 2018

Human Pose and Action Recognition参考文献 1被引用数 132

ひとこと要約

本論文は PB-GCN を導入します。部分ごとに分割したグラフ畳み込みネットワークである PB-GCN は、人間の骨格を体の部位に分割し、幾何学的および運動学的ノード特徴を用い、骨格アクション認識の分野で NTURGB+D および HDM05 における最先端の成果を達成します。

ABSTRACT

Human actions comprise of joint motion of articulated body parts or `gestures'. Human skeleton is intuitively represented as a sparse graph with joints as nodes and natural connections between them as edges. Graph convolutional networks have been used to recognize actions from skeletal videos. We introduce a part-based graph convolutional network (PB-GCN) for this task, inspired by Deformable Part-based Models (DPMs). We divide the skeleton graph into four subgraphs with joints shared across them and learn a recognition model using a part-based graph convolutional network. We show that such a model improves performance of recognition, compared to a model using entire skeleton graph. Instead of using 3D joint coordinates as node features, we show that using relative coordinates and temporal displacements boosts performance. Our model achieves state-of-the-art performance on two challenging benchmark datasets NTURGB+D and HDM05, for skeletal action recognition.

研究の動機と目的

部位ベースの視点を用いて部位固有の関係と部間の関係を捉えることで、骨格データからのアクション認識を動機づける。
共有頂点を持つサブグラフに骨格グラフを分割し、部位別の畳み込みを学習する PB-GCN を提案する。
幾何的特徴 (相対座標) および運動特徴 (時系列変位) を用いることが、3D 関節座標よりも認識性能を改善することを示す。
提案フレームワークを用いて NTURGB+D および HDM05 データセットで最先端の性能を実証する。

提案手法

既知の分割特性を持つグラフに対して一般的な部位ベースのグラフ畳み込みネットワーク（PB-GCN）を定義する。
体部位を表す複数の重なりを持つサブグラフに骨格グラフを分割する（例：軸骨格と四肢成分）。
各部位で空間的畳み込みを独立に実行し、部位間で学習された融合関数 F_agg を用いて集約する。
各部位内およびフレーム間で関節を時系列的に接続して時空グラフに拡張し、次に時系列畳み込みを適用する。
ノード特徴として相対座標と時間的変位を結合した形で用い、単純な 3D 関節座標の代わりとする。
学習可能なエッジ重みマスクと残差接続を組み込み、ResNet に類似したアーキテクチャを採用し、9 個の SP-Temporal GCN ユニットを用いる。

実験結果

リサーチクエスチョン

RQ1骨格グラフを意味のある体の部位に分割することは、骨格を単一のグラフとして扱うよりもアクション認識を改善できるか？
RQ2PB-GCN とともに用いる場合、幾何的特徴（相対座標）および運動学的特徴（時間的変位）は骨格アクション認識を改善するか？
RQ3異なる部位構成（1, 2, 4, 6 部分）の認識精度への影響はどのようになるか？
RQ4NTURGB+D および HDM05 データセットにおける最先端グラフベースの骨格アクション認識手法と PB-GCN はどう比較されるか？

主な発見

NTURGB+D で、4 部分をもつ PB-GCN は、単一部または他の分割方式より精度が高い。
相対座標と時間的変位の両方（D_R || D_T）を用いると、試験した信号の中で最良の性能を示し、部が多いほど特に顕著である。
PB-GCN は NTURGB+D および HDM05 で従来のグラフベース骨格アクション認識手法を上回り、最先端の結果を達成する。
幾何学的および運動学的手がかりは大きな向上をもたらし、特に時間的変位が性能向上に顕著に寄与する。
部位間で共有または分離した畳み込みカーネルを設定できる。部位ベースの F_agg による集約は、複数の部位からの情報を効果的に融合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。