Skip to main content
QUICK REVIEW

[論文レビュー] Language Knowledge-Assisted Representation Learning for Skeleton-Based Action Recognition

Haojun Xu, Yan Gao|arXiv (Cornell University)|May 21, 2023
Human Pose and Action Recognition被引用数 18
ひとこと要約

LA-GCN は大規模言語モデルの知識を活用してグローバルおよびカテゴリ事前グラフを構築し、それが骨格ベースのアクション認識の GC N をガイドする。NTU RGB+D、NTU RGB+D 120、NW-UCLA で最先端の精度を達成。

ABSTRACT

How humans understand and recognize the actions of others is a complex neuroscientific problem that involves a combination of cognitive mechanisms and neural networks. Research has shown that humans have brain areas that recognize actions that process top-down attentional information, such as the temporoparietal association area. Also, humans have brain regions dedicated to understanding the minds of others and analyzing their intentions, such as the medial prefrontal cortex of the temporal lobe. Skeleton-based action recognition creates mappings for the complex connections between the human skeleton movement patterns and behaviors. Although existing studies encoded meaningful node relationships and synthesized action representations for classification with good results, few of them considered incorporating a priori knowledge to aid potential representation learning for better performance. LA-GCN proposes a graph convolution network using large-scale language models (LLM) knowledge assistance. First, the LLM knowledge is mapped into a priori global relationship (GPR) topology and a priori category relationship (CPR) topology between nodes. The GPR guides the generation of new "bone" representations, aiming to emphasize essential node information from the data level. The CPR mapping simulates category prior knowledge in human brain regions, encoded by the PC-AC module and used to add additional supervision-forcing the model to learn class-distinguishable features. In addition, to improve information transfer efficiency in topology modeling, we propose multi-hop attention graph convolution. It aggregates each node's k-order neighbor simultaneously to speed up model convergence. LA-GCN reaches state-of-the-art on NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.

研究の動機と目的

  • 人間の認知に触発された事前知識を用いた骨格ベースのアクション認識を動機付ける。
  • 大規模言語モデル(LLM)の知識を統合して、骨格グラフのグローバルおよびカテゴリ priors を構築する。
  • GCN におけるマルチホップ注意を通じてトポロジー学習と情報伝達を改善する。
  • クラス固有の意味論で学習を正則化する補助監督(PC-AC)を提案。
  • NTU RGB+D、NTU RGB+D 120、NW-UCLA で最先端の性能を示す。

提案手法

  • LLM由来の joints および action classes のテキスト特徴から Global Prior Relation (GPR) Graph を構築する。
  • joint 特徴を骨のような表現に変換し、GPR 距離で重みづけすることにより Priori Skeleton Modal 表現を作成する。
  • 単一層で多跳近傍から情報を集約する Multi-Hop Attention Graph Convolution (MHA-GC) を導入する。
  • LLM の特徴からカテゴリ priors トポロジー(T-C)を形式化し、マルチタスク学習の補助モジュール PC-AC に用いる。
  • 主要分類器とクラストポロジグラフによる補助ブランチを共に学習させ、推論時には補助ブランチを除去する。
Figure 1: Schematic of LA-GCN concept. The top half of this figure shows two brain activity processes when humans perform action recognition. The bottom half shows the proposed multi-task learning process. The knowledge of the language model is divided into global information and category informatio
Figure 1: Schematic of LA-GCN concept. The top half of this figure shows two brain activity processes when humans perform action recognition. The bottom half shows the proposed multi-task learning process. The knowledge of the language model is divided into global information and category informatio

実験結果

リサーチクエスチョン

  • RQ1LLM由来の事前知識は骨格ベースのアクション認識におけるトポロジー学習をどのように改善できるか。
  • RQ2グローバルおよびカテゴリ priors は、より識別力の高い骨格表現と特徴を導くことができるか。
  • RQ3マルチホップ注意はこのタスクでの情報伝達と収束をGCNにおいて改善するか。
  • RQ4補助的 PC-AC 監督は類似またはプロセス的なアクションの認識を高めるか。

主な発見

DatasetMetricMethods/Variants (examples)Top-1 / Accuracy
NTU RGB+D 60X-SubLA-GCN93.5%
NTU RGB+D 60X-ViewLA-GCN97.2%
NTU RGB+D 120X-SubLA-GCN (Joint)86.5%
NTU RGB+D 120X-SubLA-GCN (Joint+Bone)89.7%
NTU RGB+D 120X-SubLA-GCN (4 ensemble)89.9%
NTU RGB+D 120X-SubLA-GCN (6 ensemble)90.7%
NW-UCLATop-1LA-GCN97.6%
  • LA-GCN は NTU RGB+D 60 で 93.5%(X-sub)および 97.2%(X-view)を達成し、多くのベースラインを上回る。
  • NTU RGB+D 120 では LA-GCN のバリアントが最大で 90.7%(X-sub)および 91.8%(X-setup)を ensemble で達成。
  • NW-UCLA では LA-GCN が Top-1 精度 97.6% を達成し、従来手法を上回る。
  • Joint+Bone/ensemble の4ストリームは NTU RGB+D 120 の結果を改善(例: 4 ensemble: 89.9%/91.3%)。
  • PC-AC 補助監督は類似アクション(例:「読み取り」および「書く」)の認識を約 8–9 ポイント改善。
Figure 2: Extraction of text features. Subfigure (a) is Bert’s architecture. (b) Our method uses the learned text encoder to extract text features by embedding the names of classes [C] and the names of all joints [J] of the target dataset.
Figure 2: Extraction of text features. Subfigure (a) is Bert’s architecture. (b) Our method uses the learned text encoder to extract text features by embedding the names of classes [C] and the names of all joints [J] of the target dataset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。