QUICK REVIEW

[논문 리뷰] Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition

Pengfei Zhang, Cuiling Lan|arXiv (Cornell University)|2019. 04. 02.

Human Pose and Action Recognition참고 문헌 61인용 수 42

한 줄 요약

SGN은 joint-type 및 frame-index 시맨틱을 계층적 모델에 도입하여 관절 수준 GCN과 프레임 수준 CNN으로 구성된 프레임워크에서 NTU60/NTU120/SYSU에서 매개변수가 크게 줄어든 상태에서 최첨단 정확도를 달성한다.

ABSTRACT

Skeleton-based human action recognition has attracted great interest thanks to the easy accessibility of the human skeleton data. Recently, there is a trend of using very deep feedforward neural networks to model the 3D coordinates of joints without considering the computational efficiency. In this paper, we propose a simple yet effective semantics-guided neural network (SGN) for skeleton-based action recognition. We explicitly introduce the high level semantics of joints (joint type and frame index) into the network to enhance the feature representation capability. In addition, we exploit the relationship of joints hierarchically through two modules, i.e., a joint-level module for modeling the correlations of joints in the same frame and a framelevel module for modeling the dependencies of frames by taking the joints in the same frame as a whole. A strong baseline is proposed to facilitate the study of this field. With an order of magnitude smaller model size than most previous works, SGN achieves the state-of-the-art performance on the NTU60, NTU120, and SYSU datasets. The source code is available at https://github.com/microsoft/SGN.

연구 동기 및 목표

쉽게 이용 가능한 3D 관절을 사용한 골격 기반 동작 인식을 촉진한다.
특정 상위 수준의 관절 시맨틱(관절 유형과 프레임 인덱스)을 명시적으로 포함시켜 특징 표현을 향상시킨다.
계층적 프레임워크에서 관절 수준의 상관관계는 GCN으로, 프레임 수준의 의존성은 CNN으로 모델링한다.
매개변수가 적은 강력한 경량 기준선을 제공하고, 더 적은 매개변수로 최첨단 성능을 입증한다.

제안 방법

관절 위치(position)와 속도(velocity)를 하나의 역학 표현으로 임베딩한 뒤, 이를 관절 시맨틱과 융합한다.
관절 다이나믹스와 joint-type semantics에서 학습된 콘텐츠 적응 그래프를 갖춘 관절 수준 GCN을 사용하여 프레임 내 관계를 모델링한다.
프레임 인덱스 시맨틱을 포함하고 관절에 걸친 공간 풀링을 수행하는 프레임 수준 모듈을 구성한 뒤, 프레임 간 다이나모믹스를 위해 시공간 CNN을 적용한다.
노드 및 프레임 표현을 강화하기 위해 프레임 인덱스 및 joint-type 임베딩을 사용한다.
시맨틱 없이 벤치마크 성능을 측정하기 위한 경량 강력 베이스라인을 개발하고, 데이터 증강과 풀링 전략을 포함한다.
NTU60, NTU120, SYSU 데이터셋에서 SGN을 최첨단과 비교하고 매개변수 효율성을 보고한다.

실험 결과

연구 질문

RQ1골격 데이터에서 joint-type 시맨틱을 명시적으로 모델링하는 것이 그래프 구성 및 GCN의 메시지 전달을 개선할 수 있는가?
RQ2프레임 수준에서 frame-index 시맨틱을 포함하는 것이 시간적 모델링 및 동작 분류 정확도를 향상시키는가?
RQ3관절 수준과 프레임 수준의 계층적 아키텍처가 비계층적 또는 전역 접근법보다 골격 동작 인식에 더 효과적인가?
RQ4경량 베이스라인과 비교할 때 SGN은 더 무거운 최첨단 모델에 비해 어떤 성능을 보이나?

주요 결과

SGN은 NTU60 CS(89.0%) 및 CV(94.5%) 설정에서 최첨단 성능을 달성한다.
SGN은 비시맨틱 베이스라인보다 CS에서 2.1%, CV에서 1.7% 더 잘 수행한다.
프레임 인덱스 시맨틱은 성능을 향상시키며, 특히 시간적 컨볼루션이 제한될 때 효과가 크고, 시간 커널과 함께 사용할 때 추가 이점을 제공한다.
프레임 내 관절 상관관계(joint-level)와 프레임 간 프레임 상관관계(frame-level)를 계층적으로 모델링하는 것이 비계층적 또는 전역 그래프 접근법보다 더 높은 정확도를 낸다.
시맨틱을 갖춘 SGN은 이전 방법들에 비해 매개변수를 현저히 더 적게 사용하면서도 경쟁력 있거나 우수한 정확도를 달성한다.
시맨틱이 없는 강력한 경량 베이스라인은 데이터 증강과 관절에 대한 최대 풀링에서 큰 이점을 얻어 효율성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.