[論文レビュー] Pyramid Self-attention Polymerization Learning for Semi-supervised Skeleton-based Action Recognition
PSP Learning は、半教師付きアクション認識のために pyramid self-attention polymerization と coarse-to-fine contrastive learning を用いて、体(body)、部位(part)、関節レベルのスケルトン表現を共同学習します。NTU RGB+D および NW-UCLA データセットで競争力のある性能を達成します。
Most semi-supervised skeleton-based action recognition approaches aim to learn the skeleton action representations only at the joint level, but neglect the crucial motion characteristics at the coarser-grained body (e.g., limb, trunk) level that provide rich additional semantic information, though the number of labeled data is limited. In this work, we propose a novel Pyramid Self-attention Polymerization Learning (dubbed as PSP Learning) framework to jointly learn body-level, part-level, and joint-level action representations of joint and motion data containing abundant and complementary semantic information via contrastive learning covering coarse-to-fine granularity. Specifically, to complement semantic information from coarse to fine granularity in skeleton actions, we design a new Pyramid Polymerizing Attention (PPA) mechanism that firstly calculates the body-level attention map, part-level attention map, and joint-level attention map, as well as polymerizes these attention maps in a level-by-level way (i.e., from body level to part level, and further to joint level). Moreover, we present a new Coarse-to-fine Contrastive Loss (CCL) including body-level contrast loss, part-level contrast loss, and joint-level contrast loss to jointly measure the similarity between the body/part/joint-level contrasting features of joint and motion data. Finally, extensive experiments are conducted on the NTU RGB+D and North-Western UCLA datasets to demonstrate the competitive performance of the proposed PSP Learning in the semi-supervised skeleton-based action recognition task. The source codes of PSP Learning are publicly available at https://github.com/1xbq1/PSP-Learning.
研究の動機と目的
- ジョイントレベルだけでなく、粗から細への意味情報を骨格データに活用する動機づけ。
- 粗から細へ階層的に体-部位-関節レベルのアテンションを融合する Pyramid Polymerizing Attention メカニズムの提案。
- jointとmotionモダリティ間で体・部位・関節レベルの特徴を整合させる粗から細へのコントラスト損失の導入。
- ラベル付きおよびラベルなしの骨格データの両方で訓練されるエンドツーエンドの半教師ありフレームワークの開発。
- アブレーションと比較を伴う公開データセットNTU RGB+DとNorthwestern-UCLAで手法を検証。
提案手法
- 生の骨格シーケンスをジョイントデータとモーションデータに変換し、ジョイントアンドモーションエンコーダを用いる。
- ジョイント/モーション表現から体レベル・部位レベル・関節レベルの特徴を得るために Skeleton Pyramid を構築。
- 体→部位→関節のアテンションマップを聚合する Pyramid Polymerizing Attention を適用し、対応する polymerizing 特徴を生成。
- 体・部位・関節レベルのブランチを用いて joint と motion 表現を対比させる粗から細へのコントラスト損失を定義。
- ラベルなしデータのコントラスト損失とラベル付きデータの認識損失(クロスエントロピー)を組み合わせて訓練。
実験結果
リサーチクエスチョン
- RQ1粗から細への(体/部位/関節)表現は、ジョイントのみのアプローチと比較して半教師付きの骨格アクション認識を改善しますか?
- RQ2Pyramid Polymerizing Attention は多層レベルの意味情報を効果的に融合し、コントラスト学習のより良い特徴を生成しますか?
- RQ3粗から細へのコントラスト損失は、複数の粒度にわたるジョイントとモーションのモダリティの整合にどのような影響を与えますか?
- RQ4提案手法は部分的なラベル付けの下で、標準的な骨格データセット NTU RGB+D および NW-UCLA で堅牢かつ競争力がありますか?
主な発見
- PSP Learning は半教師付き設定で NTU RGB+D および NW-UCLA で競争力のある性能を達成します。
- Pyramid Polymerizing Attention メカニズムは粗から細の階層性で体-部位-関節レベルの情報を効果的に結合します。
- 粗から細へのコントラスト損失は、ジョイントとモーションモダリティ間で体・部位・関節レベルの特徴の類似性を共同で強制します。
- このフレームワークは半教師付き骨格アクション認識における多粒度のコントラスト学習の利点を示します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。