QUICK REVIEW

[論文レビュー] Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition

Lei Shi, Yifan Zhang|arXiv (Cornell University)|May 20, 2018

Human Pose and Action Recognition参考文献 38被引用数 23

ひとこと要約

本稿では、バックプロパゲーションを用いて異なる層および入力サンプルごとに最適なグラフトポロジーを同時に学習する、2ストリームのアダプティブグラフ畳み込みネットワーク（2s-AGCN）を提案する。2ストリームアーキテクチャにより、最初の順序特徴（関節座標）と2番目の順序特徴（骨の長さと方向）を明示的にモデル化する。本手法は、NTU-RGBD（95.1％のトップ1精度）およびKinetics-Skeleton（36.1％のトップ1精度）で最先端の性能を達成し、先行手法を顕著に上回る。

ABSTRACT

In skeleton-based action recognition, graph convolutional networks (GCNs), which model the human body skeletons as spatiotemporal graphs, have achieved remarkable performance. However, in existing GCN-based methods, the topology of the graph is set manually, and it is fixed over all layers and input samples. This may not be optimal for the hierarchical GCN and diverse samples in action recognition tasks. In addition, the second-order information (the lengths and directions of bones) of the skeleton data, which is naturally more informative and discriminative for action recognition, is rarely investigated in existing methods. In this work, we propose a novel two-stream adaptive graph convolutional network (2s-AGCN) for skeleton-based action recognition. The topology of the graph in our model can be either uniformly or individually learned by the BP algorithm in an end-to-end manner. This data-driven method increases the flexibility of the model for graph construction and brings more generality to adapt to various data samples. Moreover, a two-stream framework is proposed to model both the first-order and the second-order information simultaneously, which shows notable improvement for the recognition accuracy. Extensive experiments on the two large-scale datasets, NTU-RGBD and Kinetics-Skeleton, demonstrate that the performance of our model exceeds the state-of-the-art with a significant margin.

研究の動機と目的

既存のGCNベースの骨格行動認識モデルにおける固定で手作業で作成されたグラフトポロジーの制限を解決すること。これは、階層的特徴学習や多様な行動パターンに適応できない。
最初の順序特徴（関節座標）に加えて、骨の長さや方向といった2番目の順序情報（bone length and direction）を明示的にモデル化することで、認識性能を向上させること。
各層および各サンプルごとにトポロジーを適応させるデータ駆動型のグラフ学習メカニズムを開発し、モデルの柔軟性と一般化性能を向上させること。
大規模なベンチマーク上で多数の実験を通じて、提案された2ストリームフレームワークの優位性を実証すること。

提案手法

モデルは2ストリームアーキテクチャを採用する。1つのストリームは最初の順序特徴（関節座標）を処理し、もう1つのストリームは2番目の順序特徴（関節間のベクトルで表される骨の長さと方向）を入力として処理する。
グラフトポロジーは、バックプロパゲーションを用いた微分可能なパラメータを介してエンドツーエンドで学習され、2種類のグラフを用いる：共有された構造的パターンを捉えるグローバルグラフと、サンプル固有の関係を表現する個別グラフ。
アダプティブグラフ畳み込み層は、各層および各サンプルごとに隣接行列を更新し、階層的特徴抽象化に伴って進化する動的トポロジー学習を可能にする。
最終的な予測は、両ストリームの特徴をラテントフェージュニケーションにより統合することで生成され、識別能が向上する。
モデルは標準的な交差エントロピー損失を用いてエンドツーエンドで訓練され、グラフパラメータは畳み込み重みと同時に最適化される。

実験結果

リサーチクエスチョン

RQ1固定で手作業で作成されたグラフと比較して、グラフトポロジーのエンドツーエンド学習が骨格ベースの行動認識性能を向上させることができるか？
RQ2骨の長さや方向といった2番目の順序特徴を最初の順序特徴（関節座標）に加えて組み込むことで、顕著な性能向上が達成できるか？
RQ3各サンプルおよび各層に対して個別化された、データに依存するグラフ構造は、1つの固定トポロジーに比べて、階層的意味的表現をよりよく捉えることができるか？
RQ4最初の順序および2番目の順序特徴の2ストリーム統合は、単一ストリームベースラインと比較して、認識精度で優れているか？

主な発見

提案された2s-AGCNは、NTU-RGBDデータセットで95.1％のトップ1精度を達成し、以前の最先端手法を大きく上回った。
Kinetics-Skeletonデータセットでは、36.1％のトップ1精度を達成し、以前の最良手法よりも5.4ポイント高い性能を示した。
アブレーションスタディの結果、最初の順序および2番目の順序特徴を統合した2ストリームフレームワークが最高の精度（95.1％）を達成し、単一ストリームベースライン（93.7％および93.2％）を上回った。
学習されたグラフの可視化から、高層の層では非局所的接続（例：左手と右手）が発生していることが示され、タスクに適応したトポロジーの適応が行われていることが明らかになった。
個別グラフコンponentは、各サンプルごとに異なるトポロジーを学習しており、最適なグラフ構造が行動によって異なり、固定ではないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。