QUICK REVIEW

[논문 리뷰] View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition

Pengfei Zhang, Cuiling Lan|arXiv (Cornell University)|2018. 04. 20.

Human Pose and Action Recognition참고 문헌 56인용 수 27

한 줄 요약

이 논문은 뼈대 기반 인간 행동 인식을 위한 시각 적응형 신경망(VA-RNN 및 VA-CNN)을 제안하며, 훈련 중에 최적의 가상 관측 시점들을 자동으로 학습하여 시점 변동의 영향을 줄입니다. 모델들은 뷰포인트 불변 특징의 엔드 투 엔드 학습을 통해 다섯 가지 벤치마크에서 최신 기술 성능(SOTA)을 달성하며, 데이터 증강 및 무작위 회전을 통한 VA-퓨전은 정확도를 향상시키면서도 강건성을 유지합니다.

ABSTRACT

Skeleton-based human action recognition has recently attracted increasing attention thanks to the accessibility and the popularity of 3D skeleton data. One of the key challenges in skeleton-based action recognition lies in the large view variations when capturing data. In order to alleviate the effects of view variations, this paper introduces a novel view adaptation scheme, which automatically determines the virtual observation viewpoints in a learning based data driven manner. We design two view adaptive neural networks, i.e., VA-RNN based on RNN, and VA-CNN based on CNN. For each network, a novel view adaptation module learns and determines the most suitable observation viewpoints, and transforms the skeletons to those viewpoints for the end-to-end recognition with a main classification network. Ablation studies find that the proposed view adaptive models are capable of transforming the skeletons of various viewpoints to much more consistent virtual viewpoints which largely eliminates the viewpoint influence. In addition, we design a two-stream scheme (referred to as VA-fusion) that fuses the scores of the two networks to provide the fused prediction. Extensive experimental evaluations on five challenging benchmarks demonstrate that the effectiveness of the proposed view-adaptive networks and superior performance over state-of-the-art approaches. The source code is available at https://github.com/microsoft/View-Adaptive-Neural-Networks-for-Skeleton-based-Human-Action-Recognition.

연구 동기 및 목표

뼈대 기반 인간 행동 인식에서 큰 시점 변동으로 인해 모델 성능이 떨어지는 문제를 해결하기 위해.
체계적인 인간 정의의 사전 처리(예: 신체 중심화 또는 평면 정렬)에 의존하지 않도록 하기 위해.
일致된 특징 학습을 위한 최적의 가상 관측 시점을 자동으로 결정하는 엔드 투 엔드 학습이 가능한 신경망을 개발하기 위해.
훈련 중에 무작위 회전 증강을 통합하여 일반화 능력과 강건성을 향상시키기 위해.
최소한의 모델 크기 증가로 다수의 벤치마크 데이터셋에서 최신 기술 성능을 달성하기 위해.

제안 방법

시간-공간적 특징 학습을 위한 LSTM-RNN 기반 VA-RNN과 3D 합성곱 신경망 기반 VA-CNN을 제안합니다.
각 뼈대 시퀀스에 대해 최적의 가상 시점을 학습하고 적용하는 새로운 시각 적응 모듈을 도입합니다.
시각 적응 모듈은 입력 뼈대를 일관된 가상 시점으로 변환하여 시점 간 변동을 줄이며, 더 나은 행동 특징 학습을 가능하게 합니다.
VA-RNN과 VA-CNN의 예측 결과를 융합하는 두 개의 스트림 융합 전략(즉, VA-퓨전)을 사용하여 정확도를 향상시킵니다.
훈련 중에 뼈대 시퀀스에 대해 무작위 회전 증강을 적용하여 강건성을 향상시키고 과적합을 줄입니다.
메인 분류 헤드와 함께 엔드 투 엔드 훈련을 수행하며, 시각 적응 모듈도 함께 최적화하여 인식 정확도를 극대화합니다.

실험 결과

연구 질문

RQ1학습 가능한 데이터 기반 접근 방식이 뼈대 기반 행동 인식에서 고정된 사전 처리 방법보다 우월한가요?
RQ2엔드 투 엔드로 학습된 가상 시점은 시점 변동이 행동 인식 정확도에 악영향을 미치는 데 얼마나 효과적으로 기여할 수 있나요?
RQ3다양한 시점 분포를 가진 다양한 데이터셋에서 제안된 시각 적응 메커니즘의 성능은 어떠한가요?
RQ4RNN과 CNN 아키텍처 양쪽에 시각 적응을 통합하면 다양한 모델 복잡도에서 일관된 성능 향상이 이루어지나요?
RQ5무작위 회전 증강은 모델 크기를 늘리지 않고도 시각 적응 모델의 강건성을 추가로 향상시킬 수 있나요?

주요 결과

제안된 VA-CNN(aug.) 모델은 NTU-CV 벤치마크에서 94.3%의 정확도를 기록하며, 기준 모델 S-trans+CNN(aug.)보다 0.8% 높습니다.
UWA3D 데이터셋에서 VA-CNN(aug.)는 79.3%의 정확도를 기록하며, 동일한 백본을 사용한 기준 모델 S-trans+CNN(aug.)보다 11.5% 향상되었습니다.
VA-RNN(aug.) 모델은 단지 0.47M 파라미터로 NTU-CV에서 88.7%의 정확도를 달성하여 소형 모델에서도 뛰어난 성능을 보였습니다.
두 스트림 VA-퓨전(aug.) 모델은 NTU-CV에서 95.7%의 정확도를 기록하며, 최고의 단일 스트림 기준 모델보다 2.7% 향상되었습니다.
시각 적응 모듈은 큰 모델(예: ResNet50)에 비해 작은 모델에 비해 더 큰 성능 향상을 제공하며, 확장성이 있음을 시사합니다.
VA-RNN(aug.) 모델은 1초에 7.9개의 시퀀스를 처리하고, VA-CNN(aug.) 모델은 1초에 83.3개의 시퀀스를 처리하여 속도와 정확도 사이의 트레이드오프를 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.