Skip to main content
QUICK REVIEW

[論文レビュー] A Survey on 3D Skeleton-Based Action Recognition Using Learning Method

Bin Ren, Mengyuan Liu|arXiv (Cornell University)|Feb 14, 2020
Human Pose and Action Recognition参考文献 75被引用数 86
ひとこと要約

このサーベイは3D骨格ベースのアクション認識の深層学習アプローチを包括的にレビューし、RNN、CNN、GCN、Transformersを取り上げ、NTU-RGB+DおよびNTU-RGB+D 120データセットで最先端手法を比較します。

ABSTRACT

3D skeleton-based action recognition (3D SAR) has gained significant attention within the computer vision community, owing to the inherent advantages offered by skeleton data. As a result, a plethora of impressive works, including those based on conventional handcrafted features and learned feature extraction methods, have been conducted over the years. However, prior surveys on action recognition have primarily focused on video or RGB data-dominated approaches, with limited coverage of reviews related to skeleton data. Furthermore, despite the extensive application of deep learning methods in this field, there has been a notable absence of research that provides an introductory or comprehensive review from the perspective of deep learning architectures. To address these limitations, this survey first underscores the importance of action recognition and emphasizes the significance of 3D skeleton data as a valuable modality. Subsequently, we provide a comprehensive introduction to mainstream action recognition techniques based on four fundamental deep architectures, i.e., Recurrent Neural Networks (RNNs), Convolutional Neural Networks (CNNs), Graph Convolutional Network (GCN), and Transformers. All methods with the corresponding architectures are then presented in a data-driven manner with detailed discussion. Finally, we offer insights into the current largest 3D skeleton dataset, NTU-RGB+D, and its new edition, NTU-RGB+D 120, along with an overview of several top-performing algorithms on these datasets. To the best of our knowledge, this research represents the first comprehensive discussion of deep learning-based action recognition using 3D skeleton data.

研究の動機と目的

  • アクション認識の頑健なモダリティとして3D骨格データの利用を動機づける。
  • 3D SARの深層学習アーキテクチャ(RNN、CNN、GCN、Transformers)を系統的に要約する。
  • 骨格ベース手法におけるデータ表現、空間-時間モデリング、共起特徴を分析する。
  • NTU-RGB+DおよびNTU-RGB+D 120のベンチマークと洞察を提供し、今後の研究を導く。

提案手法

  • 四つの基本的なDLアーキテクチャ(RNNs, CNNs, GCNs, Transformers)を導入し、3D SARにおける特性を比較する。
  • 骨格データのデータ表現と前処理戦略(ジョイント/ボーングラフ、スケルトン画像、共起特徴)を議論する。
  • 各アーキテクチャ内の代表的手法を調査し、空間-時間モデリングとアテンション機構に焦点を当てる。
  • グラフ構造アプローチ(ST-GCN、2s-AGCN、MS-G3D など)とトランスフォーマーベースの変種(自己アテンション、分離型アテンション)をコア技術として強調する。
  • データ駆動型のデータセット分析とNTU-RGB+DおよびNTU-RGB+D 120でのパフォーマンス傾向を提示する。

実験結果

リサーチクエスチョン

  • RQ13D骨格ベースのアクション認識に用いられる主な深層学習アーキテクチャは何で、どのように比較されるか?
  • RQ2RNNs、CNNs、GCNs、Transformersは空間-時間モデリングと骨格データ表現をどう扱うか?
  • RQ3NTU-RGB+DおよびNTU-RGB+D 120で現在トップの手法は何で、どのアーキテクチャを採用しているか?
  • RQ4データとしての骨格データを用いた3D SARの今後の方向性と課題は何か?

主な発見

データセットRankPaperYearAccuracy (C-View / NTU-RGB+D)Accuracy (C-Subject / NTU-RGB+D)Method
NTU-RGB+D データセット1Wang et al. [109]202398.794.8Two-stream Transformer
NTU-RGB+D データセット2Duan et al. [23]2022n/a93.2Dynamic group GCN
NTU-RGB+D データセット3Liu et al. [68]202396.892.8Temporal decoupling GCN
NTU-RGB+D データセット4Zhou et al. [150]2022n/a92.9Transformer
NTU-RGB+D データセット5Chen et al. [14]202196.892.4Topology refinement GCN
NTU-RGB+D データセット6Zeng et al. [135]202196.791.6Skeletal GCN
NTU-RGB+D データセット7Liu et al. [74]202096.291.5Disentangling and unifying GCN
NTU-RGB+D データセット8Ye et al. [130]202096.091.5Dynamic GCN
NTU-RGB+D データセット9Shi et al. [87]201996.189.9Directed graph neural networks
NTU-RGB+D データセット10Shi et al. [88]201895.188.5Two-stream adaptive GCN
NTU-RGB+D データセット11Zhang et al. [140]201895.089.2LSTM based RNN
NTU-RGB+D データセット12Si et al. [91]201995.089.2AGC-LSTM(Joints&Part)
NTU-RGB+D データセット13Hu et al. [33]201894.989.1Non-local S-T + frequency attention
NTU-RGB+D データセット14Li et al. [51]201994.286.8GCN
NTU-RGB+D データセット15Liang et al. [57]201993.788.63S-CNN + multi-task ensemble learning
NTU-RGB+D データセット16Song et al. [94]201993.585.9Richly activated GCN
NTU-RGB+D データセット17Zhang et al. [141]201993.486.6Semantics-guided GCN
NTU-RGB+D データセット18Xie et al. [49]201893.282.7RNN+CNN+Attention
NTU-RGB+D 120 データセット1Wang et al. [109]202392.093.8Two-stream Transformer
NTU-RGB+D 120 データセット2Xu et al. [124]2023n/a91.8Language Knowledge-Assisted
NTU-RGB+D 120 データセット3Zhou et al. [150]202289.991.3Transformer
NTU-RGB+D 120 データセット4Duan et al. [23]202289.691.3Dynamic group GCN
NTU-RGB+D 120 データセット5Chen et al. [14]202188.990.6Topology refinement GCN
NTU-RGB+D 120 データセット6Chen et al. [13]202188.289.3Spatial-Temporal GCN
NTU-RGB+D 120 データセット7Liu et al. [74]202086.988.4Disentangling and unifying GCN
NTU-RGB+D 120 データセット8Cheng et al. [16]202085.987.6Shift GCN
NTU-RGB+D 120 データセット9Caetano et al. [6]201967.962.8Tree Structure + CNN
NTU-RGB+D 120 データセット10Caetano et al. [7]201967.766.9SkeleMotion
NTU-RGB+D 120 データセット11Liu et al. [69]201864.666.9Body Pose Evolution Map
NTU-RGB+D 120 データセット12Ke et al. [40]201862.261.8Multi-Task CNN with RotClips
NTU-RGB+D 120 データセット13Liu et al. [64]201761.263.3Two-Stream Attention LSTM
NTU-RGB+D 120 データセット14Liu et al. [71]201760.363.2Skeleton Visualization (Single Stream)
NTU-RGB+D 120 データセット15Jun et al. [67]201959.962.4Online+Dilated CNN
NTU-RGB+D 120 データセット16Ke et al. [39]201758.457.9Multi-Task Learning CNN
NTU-RGB+D 120 データセット17Jun et al. [65]201758.359.2Global Context-Aware Attention LSTM
NTU-RGB+D 120 データセット18Jun et al. [63]201655.757.9Spatio-Temporal LSTM
  • GCNベースの手法は、骨格ベースアプローチの中で一般にリードする結果を達成する。
  • トランスフォーマー系は強い潜在力を示し、GCNやCNNと組み合わせたハイブリッドモデルが増えている。
  • 最近のデータセット(NTU-RGB+D 120)は難易度が増し、アーキテクチャ横断のさらなる進展の余地を示す。
  • ジョイント-ボーン構造と空間-時間グラフ、適応トポロジーを捉える表現が性能向上に寄与する。
  • データセットと評価プロトコル(Cross-Subject, Cross-View, Cross-Setup)は3D SARモデルの公正な比較に不可欠。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。