[論文レビュー] Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition
SGN はジョイント型とフレーム索引の意味情報を階層型モデルに組み込み、ジョイントレベルの GCN とフレームレベルの CNN を用い、NTU60/NTU120/SYSU で最先端の精度を、はるかに少ないパラメータで達成。
Skeleton-based human action recognition has attracted great interest thanks to the easy accessibility of the human skeleton data. Recently, there is a trend of using very deep feedforward neural networks to model the 3D coordinates of joints without considering the computational efficiency. In this paper, we propose a simple yet effective semantics-guided neural network (SGN) for skeleton-based action recognition. We explicitly introduce the high level semantics of joints (joint type and frame index) into the network to enhance the feature representation capability. In addition, we exploit the relationship of joints hierarchically through two modules, i.e., a joint-level module for modeling the correlations of joints in the same frame and a framelevel module for modeling the dependencies of frames by taking the joints in the same frame as a whole. A strong baseline is proposed to facilitate the study of this field. With an order of magnitude smaller model size than most previous works, SGN achieves the state-of-the-art performance on the NTU60, NTU120, and SYSU datasets. The source code is available at https://github.com/microsoft/SGN.
研究の動機と目的
- 骨格ベースのアクション認識を、入手しやすい3Dジョイントを用いて動機づける。
- 高レベルのジョイント意味情報(ジョイント型とフレーム索引)を明示的に組み込み、特徴表現を強化する。
- 階層的フレームワークで、ジョイントレベルの相関をGCNで、フレームレベルの依存性をCNNでモデル化する。
- 意味情報を用いた軽量で強力な基準モデルを提供し、パラメータ数を抑えつつ最先端の性能を示す。
提案手法
- ジョイント位置と速度を統一した動力学表現に埋め込み、ジョイント意味情報と融合する。
- コンテンツ適応的グラフとジョイント動力学・ジョイント型意味情報から学習されたグラフを用いたジョイントレベルのGCNで、フレーム内関係をモデル化する。
- フレーム索引意味情報を組み込み、ジョイント上で空間的プーリングを行い、その後フレーム間の動態を捉える時系列CNNを適用するフレームレベルモジュールを構築する。
- ノードとフレーム表現を豊かにするために、フレーム索引とジョイント型埋め込みを用いる。
- 意味情報なしの強力な軽量基準を開発して、データ拡張とプーリング戦略を含め、性能をベンチマークする。
- SGN を NTU60、NTU120、SYSU のデータセットで最先端と比較し、パラメータ効率を報告する。
実験結果
リサーチクエスチョン
- RQ1ジョイント型意味情報の明示的モデリングは、スケルトンデータのGCN におけるグラフ構築とメッセージ伝搬を改善するのか。
- RQ2フレームレベルでフレーム索引意味情報を組み込むと、時系列モデリングとアクション分類精度は向上するのか。
- RQ3階層的なジョイントレベルとフレームレベルのアーキテクチャは、非階層的またはグローバルなアプローチよりもスケルトンアクション認識に有効か。
- RQ4意味情報を含む SGN は、重い最先端モデルと比較して軽量基準でどの程度の性能を発揮するのか。
主な発見
- SGN は NTU60 CS(89.0%) および CV(94.5%) 設定で最先端の結果を達成。
- SGN は意味なしのベースラインより CS で 2.1%、CV で 1.7% 上回る。
- フレーム索引意味情報は、時間的畳み込みが限定される場合に性能を向上させ、時間カーネルと併用すると追加の利得を提供する。
- ジョイント内の相関を階層的にモデル化する(ジョイントレベル)と、フレーム間の相関をモデル化する(フレームレベル)は、非階層的またはグローバルなグラフ手法よりも精度が高い。
- 意味情報を持つ SGN は、従来手法の多くよりもはるかに少ないパラメータで競争力のある、またはそれを上回る精度を実現する。
- 意味情報なしの強力な軽量基準は、データ拡張とジョイント上の最大プーリングの恩恵を大きく受け、効率性の向上を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。