[論文レビュー] Graph Contrastive Learning for Skeleton-based Action Recognition
SkeletonGCL は cross-sequence graph contrastive learning を導入し、インスタンスレベルとセマンティックレベルのメモリバンクを用いてグラフ表現をクラス識別的にし、NTU60/NTU120/NW-UCLA の GCN ベースの skeleton アクション認識の性能を改善し、追加のテスト時コストなし。
In the field of skeleton-based action recognition, current top-performing graph convolutional networks (GCNs) exploit intra-sequence context to construct adaptive graphs for feature aggregation. However, we argue that such context is still \textit{local} since the rich cross-sequence relations have not been explicitly investigated. In this paper, we propose a graph contrastive learning framework for skeleton-based action recognition (\textit{SkeletonGCL}) to explore the \textit{global} context across all sequences. In specific, SkeletonGCL associates graph learning across sequences by enforcing graphs to be class-discriminative, \emph{i.e.,} intra-class compact and inter-class dispersed, which improves the GCN capacity to distinguish various action patterns. Besides, two memory banks are designed to enrich cross-sequence context from two complementary levels, \emph{i.e.,} instance and semantic levels, enabling graph contrastive learning in multiple context scales. Consequently, SkeletonGCL establishes a new training paradigm, and it can be seamlessly incorporated into current GCNs. Without loss of generality, we combine SkeletonGCL with three GCNs (2S-ACGN, CTR-GCN, and InfoGCN), and achieve consistent improvements on NTU60, NTU120, and NW-UCLA benchmarks. The source code will be available at \url{https://github.com/OliverHxh/SkeletonGCL}.
研究の動機と目的
- cross-sequence global context を活用して skeleton ベースのアクション認識の適応型 GCN におけるクラスが曖昧なグラフ表現を克服する動機付け。
- 学習されたグラフの intra-class のコンパクトさと inter-class の分散を強制する SkeletonGCL を提案する。
- cross-sequence context を豊かにするために instance-level および semantic-level memory banks を設計してグラフ対比学習を促進する。
提案手法
- 各骨格シーケンスを GCN エンコーダーで処理し、分類のための特徴ベクトルとグラフ対比のための学習済みグラフを得る。
- 学習済みグラフをグラフ投影ヘッドを介してベクトルに埋め込み、cross-sequence contrast を可能にする。
- 2 つのメモリバンクを構築する:1 つはインスタンスレベルのバンクで各シーケンスのグラフを格納し、もう 1 つはセマンティックレベルのバンクでクラス集約グラフを格納する。
- InfoNCE ベースの対比損失を使用して、同じクラスからのグラフ表現を引き寄せ、異なるクラスからのものを押し離す。これは両方のメモリバンクを跨いで適用される。
- インスタンスメモリは FIFO で更新し、セマンティックメモリは時刻ごとのモメンタム更新で更新する。
- SkeletonGCL を既存の GCN(2S-AGCN、CTR-GCN、InfoGCN)と組み合わせ、事前学習なしの完全監督設定でエンドツーエンドで訓練する。
実験結果
リサーチクエスチョン
- RQ1 cross-sequence グラフ学習は intra-sequence グラフを超えてアクションパターンの識別性を向上させるか?
- RQ2 インスタンスレベルとセマンティックレベルのメモリは、グラフベースの対比学習を高める補完的な文脈を提供するか?
- RQ3 SkeletonGCL は複数の GCN バックボーンと標準的な骨格アクションデータセット間で互換性があるか?
主な発見
- SkeletonGCL は NTU60、NTU120、NW-UCLA すべてで 2S-AGCN、CTR-GCN、InfoGCN と組み合わせた場合に一貫した改善をもたらす。
- インスタンスレベルとセマンティックレベルの両方のメモリバンクが性能向上に寄与し、両方を併用するのが最良の結果を生む。
- グラフ対比は、グラフが捉える高次構造情報のため、特徴のみの対比より有利。
- バッチ間対比(cross-sequence)はバッチ内対比より優れており、クロスシーケンス文脈の豊かさが利益となる。
- 訓練のオーバーヘッドは控えめで(2.6%–7.0% の増分)、テスト時コストは追加されない。
- 定量的分析は、正しく分類されたデータでは intra-class のグラフ表現がよりコンパクトになり、inter-class の表現がより分散することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。