[논문 리뷰] A Survey on 3D Skeleton-Based Action Recognition Using Learning Method
이 설문은 3D 골격 기반 동작 인식에 대한 심층 학습 접근법을 포괄적으로 검토하고, RNN, CNN, GCN, Transformer를 다루며 NTU-RGB+D 및 NTU-RGB+D 120 데이터셋에서 최첨단 방법을 비교한다.
3D skeleton-based action recognition (3D SAR) has gained significant attention within the computer vision community, owing to the inherent advantages offered by skeleton data. As a result, a plethora of impressive works, including those based on conventional handcrafted features and learned feature extraction methods, have been conducted over the years. However, prior surveys on action recognition have primarily focused on video or RGB data-dominated approaches, with limited coverage of reviews related to skeleton data. Furthermore, despite the extensive application of deep learning methods in this field, there has been a notable absence of research that provides an introductory or comprehensive review from the perspective of deep learning architectures. To address these limitations, this survey first underscores the importance of action recognition and emphasizes the significance of 3D skeleton data as a valuable modality. Subsequently, we provide a comprehensive introduction to mainstream action recognition techniques based on four fundamental deep architectures, i.e., Recurrent Neural Networks (RNNs), Convolutional Neural Networks (CNNs), Graph Convolutional Network (GCN), and Transformers. All methods with the corresponding architectures are then presented in a data-driven manner with detailed discussion. Finally, we offer insights into the current largest 3D skeleton dataset, NTU-RGB+D, and its new edition, NTU-RGB+D 120, along with an overview of several top-performing algorithms on these datasets. To the best of our knowledge, this research represents the first comprehensive discussion of deep learning-based action recognition using 3D skeleton data.
연구 동기 및 목표
- 3D 골격 데이터를 행동 인식의 강력한 모달리티로 활용하는 동기를 제시한다.
- 3D SAR를 위한 심층 학습 아키텍처(RNNs, CNNs, GCNs, Transformers)를 체계적으로 요약한다.
- 골격 기반 방법에서 데이터 표현, 시공간 모델링 및 동시출현 특성을 분석한다.
- NTU-RGB+D 및 NTU-RGB+D 120에 대한 벤치마크와 인사이트를 제공하여 향후 연구를 안내한다.
제안 방법
- 네 가지의 기본 DL 아키텍처(RNNs, CNNs, GCNs, Transformers)를 도입하고 3D SAR에서의 특성을 비교한다.
- 골격 데이터에 대한 데이터 표현 및 전처리 전략(관절/뼈 그래프, 골격 이미지, 공존 특성)을 논의한다.
- 각 아키텍처 내 대표 방법들을 연구하고 시공간 모델링과 주의 메커니즘에 초점을 맞춘다.
- 그래프 기반 접근(ST-GCN, 2s-AGCN, MS-G3D 등)과 트랜스포머 기반 변형(self-attention, decoupled attention)을 핵심 기법으로 강조한다.
- NTU-RGB+D 및 NTU-RGB+D 120에서의 데이터 주도 분석 및 성능 추세를 제시한다.
실험 결과
연구 질문
- RQ13D 골격 기반 동작 인식을 위해 사용되는 주요 딥러닝 아키텍처는 무엇이며 어떻게 비교되는가?
- RQ2RNNs, CNNs, GCNs, Transformers는 공간-시간 모델링 및 골격 데이터 표현을 어떻게 처리하는가?
- RQ3NTU-RGB+D 및 NTU-RGB+D 120에서 현재 최상위 방법은 무엇이며 어떤 아키텍처를 사용하는가?
- RQ4골격 데이터를 활용한 3D SAR의 향후 방향과 남아있는 도전과제는 무엇인가?
주요 결과
| 데이터셋 | 순위 | 논문 | 연도 | 정확도(C-뷰 / NTU-RGB+D) | 정확도(C-주체 / NTU-RGB+D) | 방법 |
|---|---|---|---|---|---|---|
| NTU-RGB+D dataset | 1 | Wang et al. [109] | 2023 | 98.7 | 94.8 | Two-stream Transformer |
| NTU-RGB+D dataset | 2 | Duan et al. [23] | 2022 | n/a | 93.2 | Dynamic group GCN |
| NTU-RGB+D dataset | 3 | Liu et al. [68] | 2023 | 96.8 | 92.8 | Temporal decoupling GCN |
| NTU-RGB+D dataset | 4 | Zhou et al. [150] | 2022 | n/a | 92.9 | Transformer |
| NTU-RGB+D dataset | 5 | Chen et al. [14] | 2021 | 96.8 | 92.4 | Topology refinement GCN |
| NTU-RGB+D dataset | 6 | Zeng et al. [135] | 2021 | 96.7 | 91.6 | Skeletal GCN |
| NTU-RGB+D dataset | 7 | Liu et al. [74] | 2020 | 96.2 | 91.5 | Disentangling and unifying GCN |
| NTU-RGB+D dataset | 8 | Ye et al. [130] | 2020 | 96.0 | 91.5 | Dynamic GCN |
| NTU-RGB+D dataset | 9 | Shi et al. [87] | 2019 | 96.1 | 89.9 | Directed graph neural networks |
| NTU-RGB+D dataset | 10 | Shi et al. [88] | 2018 | 95.1 | 88.5 | Two-stream adaptive GCN |
| NTU-RGB+D dataset | 11 | Zhang et al. [140] | 2018 | 95.0 | 89.2 | LSTM based RNN |
| NTU-RGB+D dataset | 12 | Si et al. [91] | 2019 | 95.0 | 89.2 | AGC-LSTM(Joints&Part) |
| NTU-RGB+D dataset | 13 | Hu et al. [33] | 2018 | 94.9 | 89.1 | Non-local S-T + frequency attention |
| NTU-RGB+D dataset | 14 | Li et al. [51] | 2019 | 94.2 | 86.8 | GCN |
| NTU-RGB+D dataset | 15 | Liang et al. [57] | 2019 | 93.7 | 88.6 | 3S-CNN + multi-task ensemble learning |
| NTU-RGB+D dataset | 16 | Song et al. [94] | 2019 | 93.5 | 85.9 | Richly activated GCN |
| NTU-RGB+D dataset | 17 | Zhang et al. [141] | 2019 | 93.4 | 86.6 | Semantics-guided GCN |
| NTU-RGB+D dataset | 18 | Xie et al. [49] | 2018 | 93.2 | 82.7 | RNN+CNN+Attention |
| NTU-RGB+D 120 dataset | 1 | Wang et al. [109] | 2023 | 92.0 | 93.8 | Two-stream Transformer |
| NTU-RGB+D 120 dataset | 2 | Xu et al. [124] | 2023 | n/a | 91.8 | Language Knowledge-Assisted |
| NTU-RGB+D 120 dataset | 3 | Zhou et al. [150] | 2022 | 89.9 | 91.3 | Transformer |
| NTU-RGB+D 120 dataset | 4 | Duan et al. [23] | 2022 | 89.6 | 91.3 | Dynamic group GCN |
| NTU-RGB+D 120 dataset | 5 | Chen et al. [14] | 2021 | 88.9 | 90.6 | Topology refinement GCN |
| NTU-RGB+D 120 dataset | 6 | Chen et al. [13] | 2021 | 88.2 | 89.3 | Spatial-Temporal GCN |
| NTU-RGB+D 120 dataset | 7 | Liu et al. [74] | 2020 | 86.9 | 88.4 | Disentangling and unifying GCN |
| NTU-RGB+D 120 dataset | 8 | Cheng et al. [16] | 2020 | 85.9 | 87.6 | Shift GCN |
| NTU-RGB+D 120 dataset | 9 | Caetano et al. [6] | 2019 | 67.9 | 62.8 | Tree Structure + CNN |
| NTU-RGB+D 120 dataset | 10 | Caetano et al. [7] | 2019 | 67.7 | 66.9 | SkeleMotion |
| NTU-RGB+D 120 dataset | 11 | Liu et al. [69] | 2018 | 64.6 | 66.9 | Body Pose Evolution Map |
| NTU-RGB+D 120 dataset | 12 | Ke et al. [40] | 2018 | 62.2 | 61.8 | Multi-Task CNN with RotClips |
| NTU-RGB+D 120 dataset | 13 | Liu et al. [64] | 2017 | 61.2 | 63.3 | Two-Stream Attention LSTM |
| NTU-RGB+D 120 dataset | 14 | Liu et al. [71] | 2017 | 60.3 | 63.2 | Skeleton Visualization (Single Stream) |
| NTU-RGB+D 120 dataset | 15 | Jun et al. [67] | 2019 | 59.9 | 62.4 | Online+Dilated CNN |
| NTU-RGB+D 120 dataset | 16 | Ke et al. [39] | 2017 | 58.4 | 57.9 | Multi-Task Learning CNN |
| NTU-RGB+D 120 dataset | 17 | Jun et al. [65] | 2017 | 58.3 | 59.2 | Global Context-Aware Attention LSTM |
| NTU-RGB+D 120 dataset | 18 | Jun et al. [63] | 2016 | 55.7 | 57.9 | Spatio-Temporal LSTM |
- GCN 기반 방법은 일반적으로 골격 기반 접근 방식에서 NTU-RGB+D 및 NTU-RGB+D 120에서 선도적인 결과를 달성한다.
- Transformer 기반 방법은 강력한 잠재력을 보이며 GCN이나 CNN과 하이브리드 모델로 결합되는 경우가 늘고 있다.
- 최근 데이터셋(NTU-RGB+D 120)은 난이도가 증가하고 있어 다양한 아키텍처에서 추가적인 발전의 여지가 있음을 시사한다.
- 관절-뼈 구조 및 시공간 그래프를 포착하고 적응적 토폴로지를 갖춘 표현이 성능 향상에 기여한다.
- 데이터셋 및 평가 프로토콜(Cross-Subject, Cross-View, Cross-Setup)은 3D SAR 모델의 공정한 비교에 중요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.