[論文レビュー] Multi-Scale Spatial Temporal Graph Convolutional Network for Skeleton-Based Action Recognition
MST-GCN を提案。多尺度空間(MS-GC)と時間(MT-GC)のグラフ畳み込みにより、短距離・長距離の空間-時間依存性を捉えられる大きな受容野を実現し、骨格ベースのアクション認識を改善。NTU RGB+D、NTU-120 RGB+D、Kinetics-Skeleton のベースラインを、同等パラメータ数で上回る。
Graph convolutional networks have been widely used for skeleton-based action recognition due to their excellent modeling ability of non-Euclidean data. As the graph convolution is a local operation, it can only utilize the short-range joint dependencies and short-term trajectory but fails to directly model the distant joints relations and long-range temporal information that are vital to distinguishing various actions. To solve this problem, we present a multi-scale spatial graph convolution (MS-GC) module and a multi-scale temporal graph convolution (MT-GC) module to enrich the receptive field of the model in spatial and temporal dimensions. Concretely, the MS-GC and MT-GC modules decompose the corresponding local graph convolution into a set of sub-graph convolution, forming a hierarchical residual architecture. Without introducing additional parameters, the features will be processed with a series of sub-graph convolutions, and each node could complete multiple spatial and temporal aggregations with its neighborhoods. The final equivalent receptive field is accordingly enlarged, which is capable of capturing both short- and long-range dependencies in spatial and temporal domains. By coupling these two modules as a basic block, we further propose a multi-scale spatial temporal graph convolutional network (MST-GCN), which stacks multiple blocks to learn effective motion representations for action recognition. The proposed MST-GCN achieves remarkable performance on three challenging benchmark datasets, NTU RGB+D, NTU-120 RGB+D and Kinetics-Skeleton, for skeleton-based action recognition.
研究の動機と目的
- 骨格ベースのアクション認識には、短距離および長距離の空間依存性と時間的ダイナミクスの両方が必要であることを動機づける。
- 受容野をパラメータを追加せずに拡張するために、多尺度の空間および時間グラフ畳み込みモジュールを導入する。
- MS-GC と MT-GC を MST-GCN ブロックに組み合わせ、運動表現のエンドツーエンド学習のために積み重ねる。
- NTU RGB+D、NTU-120 RGB+D、Kinetics-Skeleton のデータセットと複数のベンチマークで有効性を示す。
提案手法
- 骨格をノードとして関節、エッジとして骨格/時系列の連結を持つ時空グラフとして定義する。
- 従来の単一スケールのグラフ畳み込みを置換し、MS-GC が階層的残差レイアウトでサブグラフ畳み込みを連鎖させ、空間受容野を拡張する。
- MS-GC を時間領域にも拡張して MT-GC とし、階層的残差様とマルチスケールの時間集約を用いて長距離時間ダイナミクスを捉える。
- MS-GC と MT-GC を MST-GCN ブロックに統合し、ブロックを積み重ねて完全な MST-GCN ネットワークを形成する。ブロック内で空間と時間のサブモジュールを結合する STR-GC 変種を提供する。
- 実装には2つの変 variants を提供:(a)ST-GCN ブロックの代わりに MS-GC + MT-GC を用いる構成、(b)Spatial-Temporal Residual GC (STR-GC) でブロック内の更新を交互に行う構成。
実験結果
リサーチクエスチョン
- RQ1多尺度空間グラフ畳み込みは、局所近傍を越えて遠距離の関節関係を捉えられるか。
- RQ2多尺度時間グラフ畳み込みは時間受容野を拡張し、長距離ダイナミクスを効果的にモデル化できるか。
- RQ3MS-GC と MT-GC は ST-GCN ベースラインよりアクション認識性能を向上させる補完関係を持つか。
- RQ4MST-GCN は NTU RGB+D、NTU-120 RGB+D、Kinetics-Skeleton のデータセットで転移可能かつ最先端の結果を達成するか。
主な発見
| 方法 | X-view (%) | X-sub (%) |
|---|---|---|
| HBRNN | 64.0 | 59.1 |
| P-LSTM | 67.3 | 60.7 |
| TCN | 83.1 | 74.3 |
| VA-LSTM | 87.7 | 79.2 |
| ST-GCN | 88.3 | 81.5 |
| AS-GCN | 94.2 | 86.8 |
| 2s AGC-LSTM | 95.0 | 89.2 |
| 2s AGCN | 95.1 | 88.5 |
| 2s NAS-GCN | 95.7 | 89.4 |
| 4s DGNN | 96.1 | 89.9 |
| 4s MS-AAGCN | 96.2 | 90.0 |
| 2s MS-G3D | 96.2 | 91.5 |
| 4s Shift-GCN | 96.5 | 90.7 |
| Js MST-GCN (ours) | 95.1 | 89.0 |
| Bs MST-GCN (ours) | 95.2 | 89.5 |
| 2s MST-GCN (ours) | 96.4 | 91.1 |
| 4s MST-GCN (ours) | 96.6 | 91.5 |
- MS-GC は局所的な結合と遠距離の関節依存性の両方を捉え、分割数 s の増加とともに性能向上が見られる。
- MT-GC は時間受容野を拡張し、より高い s で ST-GCN に対して一貫した精度向上をもたらす。
- MS-GC と MT-GC は補完的で、全体の MST-GCN の組み合わせはいずれかのモジュール単独より高い精度を達成し、同程度のパラメータ予算で顕著な改善を示す。
- NTU RGB+D、NTU-120 RGB+D、Kinetics-Skeleton で、MST-GCN は複数のベンチマークで競争力のあるまたは最先端の Top-1(報告がある場合は Top-5)精度を達成する。
- ベースラインの ST-GCN と比べて、MST-GCN は同等のパラメータ数で最大約 1.8 ポイント、約1/3 のパラメータで最大約 0.9 ポイントの改善を達成しうる(アブレーション結果)。
- 可視化は MST-GCN がアクションに関連する関節に焦点を当て、長距離依存性を捉えられることを示す(例:歩行中の全身協調)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。