[論文レビュー] An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
この論文は、AGC-LSTMを提案する。これは、空間-時間特徴とそれらの共起を捉える、関心機構を備えたグラフ畳み込みLSTMネットワークであり、時系列階層構造を用いて時系列受容野を拡張し計算を削減する。NTU RGB+DとNorthwestern-UCLAデータセットで最先端の結果を達成している。
Skeleton-based action recognition is an important task that requires the adequate understanding of movement characteristics of a human action from the given skeleton sequence. Recent studies have shown that exploring spatial and temporal features of the skeleton sequence is vital for this task. Nevertheless, how to effectively extract discriminative spatial and temporal features is still a challenging problem. In this paper, we propose a novel Attention Enhanced Graph Convolutional LSTM Network (AGC-LSTM) for human action recognition from skeleton data. The proposed AGC-LSTM can not only capture discriminative features in spatial configuration and temporal dynamics but also explore the co-occurrence relationship between spatial and temporal domains. We also present a temporal hierarchical architecture to increases temporal receptive fields of the top AGC-LSTM layer, which boosts the ability to learn the high-level semantic representation and significantly reduces the computation cost. Furthermore, to select discriminative spatial information, the attention mechanism is employed to enhance information of key joints in each AGC-LSTM layer. Experimental results on two datasets are provided: NTU RGB+D dataset and Northwestern-UCLA dataset. The comparison results demonstrate the effectiveness of our approach and show that our approach outperforms the state-of-the-art methods on both datasets.
研究の動機と目的
- 空間配置と時間的ダイナミクスを活用した頑健な骨格ベースのアクション認識を動機づける。
- 空間領域と時間領域の共起を捉える統一モデルを提案する。
- 時間ステップを通じて識別性の高い関節を強調するアテンション機構を組み込む。
- 時系列受容野を拡張し計算量を削減するための時系列階層構造を導入する。
- 標準ベンチマーク(NTU RGB+D および Northwestern-UCLA)で最先端の性能を示す。
提案手法
- 3D関節座標を各関節ごとの線形層を用いて空間特徴にマッピングする。
- 関節位置特徴とフレーム差分特徴を連結して拡張特徴を計算し、共有LSTMを用いてスケールを正規化する。
- グラフ畳み込みを用いて空間-時間パターンを捉えるため、3つの積み重ねられたAGC-LSTM層で系列をモデル化する。
- 各時間ステップで重要な関節を強調するためにアテンションネットワークを適用し、 attended と non-attended の特徴を混合する。
- 時系列階層を作成するために時系列平均プーリングを導入し、受容野を拡大し計算を削減する。
- 最後のAGC-LSTM層からのグローバル(全関節)とローカル(attended joints)特徴を融合して分類する。
実験結果
リサーチクエスチョン
- RQ1グラフベースの手法を用いて、骨格シーケンスから効果的に識別可能な空間的・時間的特徴を抽出するにはどうすればよいか。
- RQ2関節に対するアテンション機構は、アクション関連の空間配置の識別力を向上させることができるか。
- RQ3時系列階層アーキテクチャは計算量を削減しつつ高レベルの時空間表現を改善するか。
- RQ4関節レベルおよび部位レベルのモデリング(およびそれらの組み合わせ)は、骨格ベースのアクション認識でどのように比較されるか。
主な発見
| 方法 | CV | CS | |
|---|---|---|---|
| HBRNN-L | 64.0 | 59.1 | |
| Part-aware LSTM | 70.3 | 62.9 | |
| Trust Gate ST-LSTM | 77.7 | 69.2 | |
| Two-stream RNN | 79.5 | 71.3 | |
| STA-LSTM | 81.2 | 73.4 | |
| Ensemble TS-LSTM | 81.3 | 74.6 | |
| Visualization CNN | 82.6 | 76.0 | |
| VA-LSTM | 87.6 | 79.4 | |
| ST-GCN | 88.3 | 81.5 | |
| SR-TSL | 92.4 | 84.8 | |
| HCN | 91.1 | 86.5 | |
| PB-GCN | 93.2 | 87.5 | |
| AGC-LSTM (Joint) | - | 93.5 | 87.5 |
| AGC-LSTM (Part) | - | 93.8 | 87.5 |
| AGC-LSTM (Joint&Part) | - | 95.0 | 89.2 |
- AGC-LSTMはアテンションを用いてNTU RGB+Dで最先端の精度を達成(Joint/Part/Joint&Part: 93.5/93.8/95.0 CV, 87.5/87.5/89.2 CS)およびNorthwestern-UCLA(Joint/Part/Joint&Part: 93.3/?/? in reported table)。
- 関節レベルおよび部位レベルのバリアントの双方が最高性能に達し、NTU RGB+D では joint&part 融合が最良の結果を示す。
- アブレーション分析では、LSTMをGC-LSTMに置換し時系列階層を追加することで精度が大幅に向上(例: GC-LSTM+TH vs GC-LSTM、AGC-LSTM vs GC-LSTM)。
- アテンション埋め込みは層を通じて主要関節(例: 肘、手首、手)を順次強調することが、アテンションの可視化で示されている。
- 時系列階層アーキテクチャは時間的受容野を拡大し、精度を犠牲にすることなく計算量を削減する。
- ハイブリッドな関節&部位モデリングは、単一ブランチのバリアントよりもさらに性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。