QUICK REVIEW

[論文レビュー] Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

Ziyu Liu, Hongwen Zhang|arXiv (Cornell University)|Mar 31, 2020

Human Pose and Action Recognition参考文献 53被引用数 89

ひとこと要約

MS-G3Dを導入した、分離型のマルチスケール空間-時間グラフ畳み込みアプローチであるG3Dがクロススペースタイムモデリングを統一し、NTU RGB+D 60/120 および Kinetics Skeleton 400 で最先端の結果を達成します。

ABSTRACT

Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multi-scale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.

研究の動機と目的

骨格グラフにおける長距離およびマルチスケールの文脈を捉え、頑健な骨格ベースの行動認識を動機づける。
近接ノードからのバイアスを除去し、長距離ジョイント関係を強化する分離型マルチスケール集約を提案する。
空間-時間の情報流を直接可能にする統一的な空間-時間G3Dオペレータを導入する。
これらのアイデアをMS-G3Dに統合し、大規模データセットで従来の最先端を上回る。

提案手法

近接ノードからのバイアスを避けるため専用のA_(k)行列を用いたkホップ近傍を用いた分離型マルチスケール集約。
G3D: タイル状の時空グラフを横断するクロススペースタイムスキップ接続を備えた統一的な空間-時間グラフ畳み込み。
分離型の空間-時間集約とクロススペースタイム接続および拡張的時間窓を組み合わせたマルチスケールG3D（MS-G3D）。
スケールごとのエッジ影響を動的に調整する適応的グラフ残差マスク A^res。
ディスクリート化された動的交互を高める二流（ジョイントとボーン）ファーストの融合。
マルチスケールTCN風分岐とボトルネック設計による時間モデリングの強化。

実験結果

リサーチクエスチョン

RQ1分離型でマルチスケールのグラフ集約は、骨格グラフにおける長距離ジョイント関係のモデリングをどのように改善できるか。
RQ2統一的な空間-時間グラフ畳み込み（G3D）はスペースと時間を横断する情報フローを妨げずに実現できるか。
RQ3ディス分離型集約とG3Dを統合したMS-G3Dは大規模な骨格データセットでより良い行動認識性能をもたらすか。
RQ4クロススペースタイムエッジとマルチスケール時間モデリングを組み込むことの、骨格ベースの行動認識への利点は何か。

主な発見

MS-G3DはNTU RGB+D 60、NTU RGB+D 120、Kinetics Skeleton 400の従来の最先端手法を上回る。
分離型マルチスケール集約は単純な隣接性の強化に比べて、大きなスケール（K up to 12）で特に顕著な改善をもたらす。
G3Dはクロススペースタイム学習を改善し、分離型集約と組み合わせることで堅牢なマルチスケールの時空特徴を生成する。
MS-G3Dはデータセット横断で競争力のある、あるいはリードする精度を達成: NTU RGB+D 60（X-Sub 91.5%、X-View 96.2%）、NTU RGB+D 120（X-Sub 86.9%、X-Set 88.4%）、Kinetics Skeleton 400（Top-1 38.0%、Top-5 60.9%）。
適応的グラフ残差マスクおよびボーン/ジョイントの2流融合がパフォーマンスをさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。