QUICK REVIEW

[논문 리뷰] A Large-scale Varying-view RGB-D Action Dataset for Arbitrary-view Human Action Recognition

Yanli Ji, Feixiang Xu|arXiv (Cornell University)|2019. 04. 24.

Human Pose and Action Recognition참고 문헌 45인용 수 18

한 줄 요약

이 논문은 118명의 피험자가 8개의 고정된 시점과 원형으로 변하는 시점에서 40개의 동작을 수행하는 대규모 360° 변형 시점 RGB-D 행동 데이터셋을 소개한다. 이는 임의의 시점에서 인간 행동 인식을 가능하게 한다. 본 논문은 시점 공간을 네 개의 겹치는 영역으로 나누어 각 시점에 특화된 분류기를 훈련하고, 가중 평균을 통해 예측을 융합하는 뷰 가이드드 스켈레톤 CNN(VS-CNN)을 제안한다. 이는 교차 피험자, 교차 시점, 임의의 시점 인식 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Current researches of action recognition mainly focus on single-view and multi-view recognition, which can hardly satisfies the requirements of human-robot interaction (HRI) applications to recognize actions from arbitrary views. The lack of datasets also sets up barriers. To provide data for arbitrary-view action recognition, we newly collect a large-scale RGB-D action dataset for arbitrary-view action analysis, including RGB videos, depth and skeleton sequences. The dataset includes action samples captured in 8 fixed viewpoints and varying-view sequences which covers the entire 360 degree view angles. In total, 118 persons are invited to act 40 action categories, and 25,600 video samples are collected. Our dataset involves more participants, more viewpoints and a large number of samples. More importantly, it is the first dataset containing the entire 360 degree varying-view sequences. The dataset provides sufficient data for multi-view, cross-view and arbitrary-view action analysis. Besides, we propose a View-guided Skeleton CNN (VS-CNN) to tackle the problem of arbitrary-view action recognition. Experiment results show that the VS-CNN achieves superior performance.

연구 동기 및 목표

실제 인간-로봇 상호작용(HRI) 응용 분야에서 임의의 시점 행동 인식을 지원하는 대규모 데이터셋의 부족을 해결하기 위해.
8개의 고정 시점과 연속적인 변형 시점 시퀀스를 포함한, 전체 360° 시점 커버리지가 가능한 종합적인 RGB-D 데이터셋을 수집하기 위해.
훈련 중에 볼 수 없었던 시점에서도 큰 시점 변화가 발생하는 상황에서 행동을 인식할 수 있는 딥 러닝 모델을 개발하기 위해.
실제 로봇 상호작용 시나리오를 시뮬레이션하기 위해 교차 피험자, 교차 시점, 임의의 시점 인식 설정에서 제안된 방법을 평가하기 위해.

제안 방법

8대의 동기화된 RGB-D 카메라를 원형으로 배열하여 118명의 피험자가 40개의 피트니스 관련 동작을 수행하는 데이터셋을 수집한다.
데이터셋에는 동기화된 RGB 영상, 깊이 시퀀스, 스켈레톤 시퀀스가 포함되어 있으며, 총 25,600개의 영상 샘플과 83시간 분량의 영상 자료를 포함한다.
제안된 VS-CNN 모델은 360° 시점 공간을 네 개의 겹치는 시점 그룹으로 나누어 큰 시점 변화를 처리한다.
시점 그룹 예측 모듈은 각 행동 샘플을 네 개의 시점 그룹 중 하나로 할당하여, 네 개의 시점 전용 분류기의 훈련을 유도한다.
모델은 학습된 가중치를 가진 네 개의 시점 전용 분류기에서의 특징 융합을 통해 SoftMax를 통해 최종 예측을 도출한다.
프레임워크는 교차 피험자, 교차 시점, 임의의 시점 인식 등 다양한 프로토콜에서 훈련 및 평가되며, 안정성을 확보하기 위해 변형 시점 시퀀스를 분할한다.

실험 결과

연구 질문

RQ1훈련 시에 볼 수 없었던 시점에서 테스트가 이루어질 경우, 제한된 시점 데이터만을 사용하여 딥 러닝 모델이 강건한 행동 인식을 달성할 수 있는가?
RQ2한정된 시점 기반 벤치마크에 비해, 전체 360° 시점 커버리지가 임의의 시점 행동 인식 성능을 얼마나 향상시키는가?
RQ3시점 그룹화와 시점 가이드드 특징 학습이 큰 시점 변화에 걸쳐 일반화 능력을 얼마나 향상시키는가?
RQ4교차 피험자, 교차 시점, 임의의 시점 인식 프로토콜에서 제안된 VS-CNN의 성능은 기존 방법에 비해 어떻게 비교되는가?

주요 결과

제안된 VS-CNN는 ResNeXt 및 JOULE를 포함한 여덟 가지 베이스라인 방법에 비해 임의의 시점 행동 인식 작업에서 뛰어난 정확도를 달성한다.
임의의 시점 인식 II에서, 훈련 및 테스트 데이터가 모두 원형 시점 커버리지를 포함하는 경우, 정확도 곡선이 평탄하고 일관되게 높게 유지되어 강건한 일반화 능력을 보여준다.
변형 시점 시퀀스를 10개의 섹션으로 분할하는 것이 15개 섹션보다 더 뛰어난 성능을 내며, 짧은 클립이 표준 행동 지속 시간과 더 잘 맞아떨어지고 모델의 일반화 능력을 향상시킨다.
교차 피험자 인식은 가장 높은 정확도를 기록하지만, 교차 시점 및 임의의 시점 인식은 낮지만 여전히 강력한 성능을 보이며, 다양한 시점 간 도메인 이탈의 과제를 시사한다.
고정된 시점 외에 전체 360° 변형 시점 시퀀스를 훈련에 사용함으로써, 고정된 시점만으로 훈련하는 것보다 모델의 강건성과 성능이 크게 향상된다.
VS-CNN의 겹치는 시점 그룹 설계는 시점 전환 동안 효과적인 특징 학습을 가능하게 하여, 시점 변화에 대한 민감도를 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.