Skip to main content
QUICK REVIEW

[論文レビュー] Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching

Wei Peng, Xiaopeng Hong|arXiv (Cornell University)|Nov 11, 2019
Human Pose and Action Recognition参考文献 37被引用数 27
ひとこと要約

本論文は、骨格に基づく行動認識のための最初のニューラルアーキテクチャサーチ(NAS)ベースのグラフ畳み込みネットワーク(GCN)を提案し、最適なグラフ構造および高次接続を自動で発見する。メモリおよびサンプル効率の良い進化戦略を用いて動的空間時系列グラフ学習とマルチホップ・チビシェフ近似を統合することで、NTU RGB+DおよびKinetics-Skeletonデータセットで最先端の精度を達成した。

ABSTRACT

Human action recognition from skeleton data, fueled by the Graph Convolutional Network (GCN), has attracted lots of attention, due to its powerful capability of modeling non-Euclidean structure data. However, many existing GCN methods provide a pre-defined graph and fix it through the entire network, which can loss implicit joint correlations. Besides, the mainstream spectral GCN is approximated by one-order hop, thus higher-order connections are not well involved. Therefore, huge efforts are required to explore a better GCN architecture. To address these problems, we turn to Neural Architecture Search (NAS) and propose the first automatically designed GCN for skeleton-based action recognition. Specifically, we enrich the search space by providing multiple dynamic graph modules after fully exploring the spatial-temporal correlations between nodes. Besides, we introduce multiple-hop modules and expect to break the limitation of representational capacity caused by one-order approximation. Moreover, a sampling- and memory-efficient evolution strategy is proposed to search an optimal architecture for this task. The resulted architecture proves the effectiveness of the higher-order approximation and the dynamic graph modeling mechanism with temporal interactions, which is barely discussed before. To evaluate the performance of the searched model, we conduct extensive experiments on two very large scaled datasets and the results show that our model gets the state-of-the-art results.

研究の動機と目的

  • 骨格に基づく行動認識における従来のGCN手法で用いられる固定で事前に定義されたグラフトポロジーの制限を克服すること。
  • 主流のスペクトルGCNで見られる1次チビシェフ近似による表現のボトルネックを解消すること。
  • カスタム化されたGCN探索空間における自動化されたニューラルアーキテクチャサーチ(NAS)により、手作業によるアーキテクチャ設計の負担を軽減すること。
  • 層固有の空間時系列相関を動的グラフモジュールでモデル化することで、性能を向上させること。
  • 人間の骨格のような大規模で非ユークリッドなグラフデータに適した、メモリおよびサンプル効率の良い探索戦略の開発。

提案手法

  • 骨格データにおけるGCNに特化した新しいNASフレームワークを提案し、空間的・時系列的・空間時系列的ノード相関に基づく複数の動的グラフモジュールを含む探索空間を拡張した。
  • 4次チビシェフ多項式近似を用いた高次グラフ畳み込みを導入し、1次近傍を超えた受容 field を拡大した。
  • 連続的および離散的空間の両方で最適化可能な、サンプリングおよびメモリ効率の良い進化戦略(CEIM)を設計し、交差エントロピーとインポートランスミキシングを統合した。
  • 層固有の動的グラフ学習を採用し、ネットワークの各層で異なるグラフ生成メカニズムを選択することで、進化する意味的情報を捉える。
  • バックプロパゲーションをアーキテクチャパラメータに通さない神経進化的手法を用い、アーキテクチャ分布を推定し探索をガイドした。
  • 関節モダリティとボーンモダリティの特徴をスコアレベルで融合し、NTU RGB+DおよびKinetics-Skeletonデータセットの両方での性能向上を図った。

実験結果

リサーチクエスチョン

  • RQ1ニューラルアーキテクチャサーチは、手作業で設計されたものよりも優れた骨格に基づく行動認識のためのGCNアーキテクチャを効果的に発見できるか?
  • RQ2層固有の動的グラフ学習を組み込むことで、固定または共有されたグラフ構造と比較して性能が向上するか?
  • RQ3チビシェフ近似による高次グラフ畳み込みは、表現能力および認識精度をどの程度向上させるか?
  • RQ4メモリおよびサンプル効率の良い進化戦略は、人間の骨格のような大規模で非ユークリッドなグラフデータにおいて、有効なNASを可能にするか?
  • RQ5時系列相関と空間時系列相互作用は、探索されたGCNアーキテクチャの最終的な性能にどの程度寄与するか?

主な発見

  • 関節モダリティを用いたNAS最適化GCNは、NTU RGB+Dデータセットで94.6%の精度を達成し、以前のSOTA(2S-AGCNで93.7%)を0.9ポイント上回った。
  • ボーンモダリティでは94.7%の精度に達し、前回のSOTAを1.5%上回った。
  • 関節とボーンの融合を適用した場合、NTU RGB+Dで95.7%の精度を達成し、新たなSOTAベンチマークを樹立した。
  • Kinetics-Skeletonでは、関節+ボーンの融合でトップ1精度37.1%を達成し、以前のSOTA(36.1%)を1.0ポイント上回った。
  • アブレーションスタディの結果、時系列相関のモデル化と高次チビシェフ近似が性能向上に顕著に寄与することが確認され、Ours(T+Cheb)は関節モダリティで94.0%、統合モダリティで95.2%の精度を達成した。
  • 完全なNASベースのアーキテクチャ(Ours(NAS))は、すべてのアブレーションバリアントを上回り、動的グラフと高次モジュールの共同探索の有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。