QUICK REVIEW

[論文レビュー] Skeleton-based Human Action Recognition via Convolutional Neural Networks (CNN)

Ayman Ali, Ekkasit Pinyoanuntapong|arXiv (Cornell University)|Jan 31, 2023

Human Pose and Action Recognition被引用数 9

ひとこと要約

この論文は、適切な訓練テクニック、データ拡張、マージンベースのコサイン損失を使用することで、骨格ベースのアクション認識においてCNNが最先端のGCNと同等になり得ることを示し、NTU-60で95%を達成している。

ABSTRACT

Recently, there has been a remarkable increase in the interest towards skeleton-based action recognition within the research community, owing to its various advantageous features, including computational efficiency, representative features, and illumination invariance. Despite this, researchers continue to explore and investigate the most optimal way to represent human actions through skeleton representation and the extracted features. As a result, the growth and availability of human action recognition datasets have risen substantially. In addition, deep learning-based algorithms have gained widespread popularity due to the remarkable advancements in various computer vision tasks. Most state-of-the-art contributions in skeleton-based action recognition incorporate a Graph Neural Network (GCN) architecture for representing the human body and extracting features. Our research demonstrates that Convolutional Neural Networks (CNNs) can attain comparable results to GCN, provided that the proper training techniques, augmentations, and optimizers are applied. Our approach has been rigorously validated, and we have achieved a score of 95% on the NTU-60 dataset

研究の動機と目的

識別性の高い特徴を持つ計算効率の高いモダリティとして、骨格ベースのアクション認識を動機づける。
この領域でCNNがGCNベースのアプローチに対して競争力のある性能を達成できるかを探る。
一般化性能と頑健性に対する多様なデータ拡張と最適化戦略の影響を評価する。
従来のクロスエントロピーよりもマージンベースのコサイン損失が識別的特徴学習を向上させることを示す。

提案手法

スケルトン系列をスケルトンマップ画像にエンコードして、CNNによる時空情報の処理を可能にする。
RandAugmentおよびポーズ固有の手法に触発された多様な画像ベースおよびスケルトンベースのデータ拡張を適用する。
標準のクロスエントロピーの代わりにマージンベースのコサイン損失（AAMLに触発された）を使用して、クラス間の分離を高める。
収束と一般化を改善するため、最適化アルゴリズム（MadGrad）および学習率スケジューラ（Cosine Annealing + ReducedLR）を用いて実験する。
過学習を抑制するための正則化技術（ラベル平滑化、ドロップアウト、バッチ正規化、早期停止）。

Figure 1: Action representation from NTU-D 60 dataset A) -45°skeleton visualization, B) 0 °skeleton visualization, C) 45°skeleton visualization. (D, E, F) are the transformed skeleton for the same skeletons in (A, B, C)

実験結果

リサーチクエスチョン

RQ1強力な訓練と拡張戦略を備えた場合、CNNが骨格ベースのアクション認識でGCNベースの手法と競争力のある精度を達成できるか？
RQ2さまざまな拡張技術がCNNベースの骨格アクション認識器の一般化と頑健性に与える影響は？
RQ3骨格ベースのアクション認識において、マージンベースのコサイン損失はクロスエントロピーより識別性能を改善するか？
RQ4CNNベースの骨格アクションモデルにおいて、どの最適化アルゴリズムと学習率スケジューリングの組み合わせが最良の性能をもたらすか？

主な発見

適切な訓練テクニックを備えたCNNベースのモデルは、スケルトンベースのアクション認識においてGCNアプローチに匹敵する最先端に似た結果を達成する。
データ拡張（画像ベースおよびスケルトンベース）は、さまざまな変動に対する一般化と頑健性を大きく向上させる。
マージンベースのコサイン損失（ArcFaceに似たもの）の使用は、クロスエントロピー損失よりも顕著な性能向上をもたらす。
Cosine AnnealingとReducedLRスケジューラを組み合わせたMadGradオプティマを使用すると、訓練の安定性と精度が向上する。
正則化技術は未知データでの一般化を向上させる。

Figure 2: The pipeline of generating the skeleton map image

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。