[論文レビュー] UNIK: A Unified Framework for Real-world Skeleton-based Action Recognition
UNIKは、均一に初期化された依存行列とマルチヘッド注意機構を用いて、骨格データの時空依存性を学習し、特に実世界ビデオのPoseticsで事前学習した場合に、クロスデータセット一般化を強化します。
Action recognition based on skeleton data has recently witnessed increasing attention and progress. State-of-the-art approaches adopting Graph Convolutional networks (GCNs) can effectively extract features on human skeletons relying on the pre-defined human topology. Despite associated progress, GCN-based methods have difficulties to generalize across domains, especially with different human topological structures. In this context, we introduce UNIK, a novel skeleton-based action recognition method that is not only effective to learn spatio-temporal features on human skeleton sequences but also able to generalize across datasets. This is achieved by learning an optimal dependency matrix from the uniform distribution based on a multi-head attention mechanism. Subsequently, to study the cross-domain generalizability of skeleton-based action recognition in real-world videos, we re-evaluate state-of-the-art approaches as well as the proposed UNIK in light of a novel Posetics dataset. This dataset is created from Kinetics-400 videos by estimating, refining and filtering poses. We provide an analysis on how much performance improves on smaller benchmark datasets after pre-training on Posetics for the action classification task. Experimental results show that the proposed UNIK, with pre-training on Posetics, generalizes well and outperforms state-of-the-art when transferred onto four target action classification datasets: Toyota Smarthome, Penn Action, NTU-RGB+D 60 and NTU-RGB+D 120.
研究の動機と目的
- 異なる人体トポロジーや実世界のノイズに頑健な骨格ベースのアクション認識を動機づける。
- 関節配置が異なるデータセット間で一般化するトポロジー非依存のフレームワークを提案する。
- 実世界ビデオへの骨格ベースモデルのクロスドメイン転移性を研究する。
- 大規模な実世界骨格データセットとしてPoseticsを導入し、事前学習に用いる。
- Poseticsでの事前学習が下流の実世界ベンチマークでの性能を向上させることを示す。
提案手法
- 固定された骨格トポロジーを置換するために、均一に分布させた依存行列を初期化する。
- 均一な初期化から複数の依存マップを学習するために、マルチヘッド集約を適用する。
- 空間長短期依存ユニット(S-LSU)と時間長短期依存ユニット(T-LSU)を用いて、多スケールの時空特徴を捉える。
- アクションごとに依存行列を動的に調整する自己注意機構を組み込む。
- 最終的なアクション予測のために、ジョイント特徴とボーン特徴の二重ストリーム融合を用いる。
- Posetics上でUNIKバックボーンを事前学習し、ターゲットデータセットでファインチューニングして転移性を評価する。
実験結果
リサーチクエスチョン
- RQ1事前に定義された人間のトポロジーに依存せずに、UNIKは効果的な骨格ベースのアクション認識を達成できるか。
- RQ2実世界の大規模骨格データセット(Posetics)での事前学習は、他の実世界ベンチマークへのクロスデータセット転移を改善するか。
- RQ3クロスドメイン転移設定における最先端のGCNベース手法と比べて、UNIKはどうか。
- RQ4マルチヘッド注意とヘッド数が一般化と精度に与える影響はどのようか。
主な発見
- 均一な依存初期化とマルチヘッド注意を備えたUNIKは、クロスサブジェクトのベンチマークにおいて固定グラフST-GCNのベースラインを上回る。
- PoseticsでのUNIKの事前学習はSmarthomeとPenn Actionへの転移時の性能を大幅に向上させ、NTU-60/120でも競争力を維持する。
- Posetics事前学習を用いたUNIKは、複数の実世界データセットで最先端または競争力のある結果を達成し、強い一般化を示している。
- ヘッド数(N)を増やすとデータセット特定の性能は向上するが、クロスデータセット一般化を損なう場合がある。N=3をバランスの取れた設定として選択。
- Joint+Boneの二重ストリーム融合は、特にPosetics事前学習時に性能をさらに向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。