[論文レビュー] Skeleton-based Action Recognition via Temporal-Channel Aggregation
本論文は、時空間トポロジーを動的に学習し、注意機構でマルチスケールの時空間特徴を融合する Temporal-Channel Aggregation Graph Convolutional Network(TCA-GCN)を提案する。NTU RGB+D、NTU RGB+D 120、NW-UCLA のデータセットにおいて、最先端の結果を達成している。
Skeleton-based action recognition methods are limited by the semantic extraction of spatio-temporal skeletal maps. However, current methods have difficulty in effectively combining features from both temporal and spatial graph dimensions and tend to be thick on one side and thin on the other. In this paper, we propose a Temporal-Channel Aggregation Graph Convolutional Networks (TCA-GCN) to learn spatial and temporal topologies dynamically and efficiently aggregate topological features in different temporal and channel dimensions for skeleton-based action recognition. We use the Temporal Aggregation module to learn temporal dimensional features and the Channel Aggregation module to efficiently combine spatial dynamic channel-wise topological features with temporal dynamic topological features. In addition, we extract multi-scale skeletal features on temporal modeling and fuse them with an attention mechanism. Extensive experiments show that our model results outperform state-of-the-art methods on the NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
研究の動機と目的
- 時系列特徴と空間特徴の集約をバランスさせることによって、骨格ベースの行動認識の改善を動機づける。
- 時空間トポロジーを動的に学習するモデルを開発する。
- 時相集約、チャネル別トポロジーの洗練、注意機構を用いたマルチスケール特徴の融合を統合する。
- 複数のデータストリームを動的に融合するメカニズムを提供し、データセットを横断した性能を最大化する。
提案手法
- 時空間トポロジーを動的に学習する Temporal-Channel Aggregation Graph Convolutional Networks (TCA-GCN) を導入する。
- 入力特徴から時相ウェイトをキャリブレーションする Temporal Aggregation を提案する。
- 動的に学習されたチャネル単位のトポロジーと時系列トポロジーを融合する Channel Aggregation を提案する。
- TCA ブロック内に Channel-wise Topology Modeling(S, Q) と Temporal Aggregation(TA) を組み込む。
- 注意ベースの融合を用いたマルチスケール骨格特徴の融合用の TF モジュールを追加(MSCONE と M attention)。
- 適応ウェイトのためのアルゴリズム1を用いて、4つのストリーム(骨格、骨格運動、関節、関節運動)間の動的融合を実装する。
実験結果
リサーチクエスチョン
- RQ1時空間適応的集約フレームワークは、骨格ベースの行動認識において時系列と空間特徴を効果的にバランスさせることができるか。
- RQ2時系列集約と組み合わさった動的なチャネル単位のトポロジー洗練は、さまざまなデータセットで認識精度を向上させるか。
- RQ3注意機構を用いたマルチスケール時系列特徴の融合は、アクション分類性能にどの程度影響するか。
- RQ4NTU および NW-UCLA データセット全体で、動的融合戦略は固定ウェイトのマルチストリーム融合を上回ることができるか。
主な発見
| Method | NW-UCLA 精度(%) | X-Sub (NTU-60) | X-View (NTU-60) | X-Sub (NTU-120) | X-Set (NTU-120) |
|---|---|---|---|---|---|
| Lie Group (2015) | 74.2 | ||||
| HBRNN-L (2015) | 78.5 | ||||
| Glimpse Clouds (2018) | 87.6 | ||||
| VA-fusion (2018) | 88.1 | ||||
| Action Machine (2018) | 92.3 | ||||
| AGC-LSTM (2019) | 93.3 | ||||
| SGN cite (2020b) | 92.5 | ||||
| Shift-GCN (2020c) | 94.6 | ||||
| DC-GCN+ADG (2020a) | 95.3 | ||||
| CTR-GCN (2021b) | 96.5 | ||||
| Ta-CNN (2022) | 96.1 | ||||
| Ta-CNN+ (2022) | 97.2 | ||||
| TCA-GCN | 96.8 | ||||
| TCA-GCN(4sD) | 97.0 | ||||
| ST-LSTM (2016) | <空> | ||||
| ST-GCN (2018a) | <空> | ||||
| RA-GCNv1 (2019) | <空> | ||||
| 2s-AGCN (2019) | <空> | ||||
| Shift-GCN (2020c) | <空> | ||||
| MST-G3D (2020b) | <空> | ||||
| MST-GCN (2021) | <空> | ||||
| Skeletal-GNN (2021b) | <空> | ||||
| CTR-GCN (2021b) | <空> | ||||
| Ta-CNN (2022) | <空> | ||||
| Ta-CNN+ (2022) | <空> | ||||
| EfficientGCN-B4 (2022b) | <空> |
- NW-UCLA、NTU RGB+D、および NTU RGB+D 120 データセットで最先端または競争力のある結果を達成。
- 4ストリーム動的融合(4sD)を用いた TCA-GCN は、いくつかのベンチマークで単一ストリームおよび固定ウェイト融合より精度を向上。
- 時相集約は入力特徴を用いて時系列ウェイトをキャリブレーションし、時系列ダイナミクスのモデリングを改善。
- チャネル単位のトポロジーモデリングは動的な空間トポロジーを学習し、時相トポロジーと組み合わせるとより豊かな表現を生み出す。
- 注意機構を用いたマルチスケール骨格特徴の融合は、アクション意味理解のモデリングをさらに強化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。