QUICK REVIEW

[논문 리뷰] Skeleton-based Human Action Recognition via Convolutional Neural Networks (CNN)

Ayman Ali, Ekkasit Pinyoanuntapong|arXiv (Cornell University)|2023. 01. 31.

Human Pose and Action Recognition인용 수 9

한 줄 요약

본 논문은 적절한 학습 기법, 증강, 마진 기반 코사인 손실을 사용하면 CNN이 뼈대 기반 동작 인식에서 최첨단 GCN과 대등한 성능을 낼 수 있음을 보여주며, NTU-60에서 95%의 정확도를 달성한다.

ABSTRACT

Recently, there has been a remarkable increase in the interest towards skeleton-based action recognition within the research community, owing to its various advantageous features, including computational efficiency, representative features, and illumination invariance. Despite this, researchers continue to explore and investigate the most optimal way to represent human actions through skeleton representation and the extracted features. As a result, the growth and availability of human action recognition datasets have risen substantially. In addition, deep learning-based algorithms have gained widespread popularity due to the remarkable advancements in various computer vision tasks. Most state-of-the-art contributions in skeleton-based action recognition incorporate a Graph Neural Network (GCN) architecture for representing the human body and extracting features. Our research demonstrates that Convolutional Neural Networks (CNNs) can attain comparable results to GCN, provided that the proper training techniques, augmentations, and optimizers are applied. Our approach has been rigorously validated, and we have achieved a score of 95% on the NTU-60 dataset

연구 동기 및 목표

계산적으로 효율적인 모달리티로서 뼈대 기반 동작 인식을 위한 동기를 부여한다.
이 분야에서 CNN이 GCN 기반 접근법에 대해 경쟁력 있는 성능을 달성할 수 있는지 탐구한다.
일반화와 강건성에 미치는 다양한 데이터 증강 및 최적화 전략의 영향을 평가한다.
마진 기반 코사인 손실이 전통적인 크로스 엔트로피보다 판별적 특징 학습을 향상시킬 수 있음을 보여준다.

제안 방법

스켈레톤 시퀀스를 뼈대 맵 이미지로 인코딩하여 CNN이 시공간 정보를 처리할 수 있게 한다.
RandAugment와 자세 특이 기법에서 영감을 받은 다양하고 이미지 기반 및 스켈레톤 기반 데이터 증강을 적용한다.
표준 크로스 엔트로피 대신 마진 기반 코사인 손실(AAML에서 영감을 받은)을 사용하여 클래스 간 분리를 증가시킨다.
수렴성과 일반화를 개선하기 위해 최적화 알고리즘(MadGrad)과 학습률 스케줄러(Cosine Annealing + ReducedLR)를 실험한다.
과적합 완화를 위한 정규화 기법(label smoothing, dropout, batch normalization, early stopping)을 사용한다.

Figure 1: Action representation from NTU-D 60 dataset A) -45°skeleton visualization, B) 0 °skeleton visualization, C) 45°skeleton visualization. (D, E, F) are the transformed skeleton for the same skeletons in (A, B, C)

실험 결과

연구 질문

RQ1강력한 학습 및 증강 전략을 갖춘 경우 CNN이 뼈대 기반 동작 인식에서 GCN 기반 방법과 경쟁력 있는 정확도를 달성할 수 있는가?
RQ2다양한 증강 기법이 CNN 기반 뼈대 동작 인식기의 일반화 및 강건성에 어떤 영향을 미치는가?
RQ3뼈대 기반 동작 인식에서 마진 기반 코사인 손실이 크로스 엔트로피보다 판별 성능을 향상시키는가?
RQ4CNN 기반 뼈대 동작 모델에 대해 어떤 최적화 알고리즘과 학습률 스케줄링 조합이 가장 좋은 성능을 낳는가?

주요 결과

적절한 학습 트릭을 갖춘 CNN 기반 모델은 뼈대 기반 동작 인식에서 GCN 접근법과 유사한 최첨단 수준의 결과를 달성한다.
데이터 증강(이미지 기반 및 뼈대 기반)이 변동성 전반에 걸친 일반화와 강건성을 크게 향상시킨다.
마진 기반 코사인 손실(ArcFace 유사)을 사용하면 크로스 엔트로피 손실에 비해 현저한 성능 향상이 있다.
Cosine annealing과 ReducedLR 스케줄러를 갖춘 MadGrad 최적화기가 학습 안정성과 정확도를 높인다.
정규화 기법은 보이지 않는 데이터에 대한 일반화에 기여한다.

Figure 2: The pipeline of generating the skeleton map image

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.