QUICK REVIEW

[논문 리뷰] A Fusion of Appearance based CNNs and Temporal evolution of Skeleton with LSTM for Daily Living Action Recognition.

Srijan Das, Michal Koperski|arXiv (Cornell University)|2018. 02. 01.

Human Pose and Action Recognition참고 문헌 39인용 수 8

한 줄 요약

이 논문은 일상 행동 인식을 향상시키기 위해 외관 기반 CNN과 뼈대 기반 LSTM 네트워크의 새로운 융합을 제안한다. RGB 프레임에서 추출한 정적 외관 특징와 뼈대 시퀀스의 장기적 시간적 변화를 결합함으로써, CAD60 및 MSRDailyActivity3D 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하며, 유사한 운동 및 자세 패턴을 가진 행동의 인식을 특히 향상시킨다.

ABSTRACT

In this paper, we propose efficient method which combines skeleton information and appearance features for daily-living action recognition. Many RGB methods focus only on short term temporal information obtained from optical flow. Skeleton based methods on the other hand show that modeling long term skeleton evolution improves action recognition accuracy. In this paper we propose to fuse skeleton based LSTM classifier which models temporal evolution of skeleton with deep CNN which models static appearance. We show that such fusion improves recognition of actions with similar motion and pose footprint, which is especially crucial in daily-living action recognition scenario. We validate our approach on public available CAD60 and MSRDailyActivity3D, achieving state-of-the art results.

연구 동기 및 목표

유사한 운동 및 자세 패턴을 보이는 일상 행동을 인식하는 데 도전하는 것을 목적으로 한다.
뼈대 데이터의 장기적 시간적 진화를 모델링하여 행동 인식 정확도를 향상시키는 것을 목적으로 한다.
외관만으로는 시각적 유사성이 높아 인식이 어려운 상황에서 성능을 향상시키는 것을 목적으로 한다.
깊이 학습된 CNN을 통한 외관 특징와 LSTMs를 통한 시간적 뼈대 역학을 융합하는 강력한 융합 프레임워크를 개발하는 것을 목적으로 한다.

제안 방법

이 방법은 RGB 프레임에서 정적 외관 특징를 추출하기 위해 깊이 학습된 합성곱 신경망(CNN)을 사용한다.
별도의 LSTM 네트워크가 뼈대 시퀀스를 처리하여 인간 관절의 장기적 시간적 진화를 모델링한다.
CNN 및 LSTM 브랜치에서 추출한 특징를 특징 공간에서 조기에 융합하여 공동 표현 학습을 가능하게 한다.
융합된 특징를 소프트맥스를 사용한 완전 연결층을 통해 분류하여 행동 인식을 수행한다.
표준 최적화 기법을 사용하여 공개 데이터셋에서 엔드 투 엔드로 모델을 훈련시킨다.

실험 결과

연구 질문

RQ1외관 기반 CNN 특징와 뼈대 시퀀스의 시간 모델링을 융합하면 일상 행동 인식 성능이 향상되는가?
RQ2유사한 운동 및 자세 패턴을 가진 행동에서 장기적 뼈대 진화 모델링이 성능 향상에 어떻게 기여하는가?
RQ3외관 및 뼈대 특징의 조기 융합이 모odal 별 또는 후기 융합 접근법보다 얼마나 뛰어난가?
RQ4제안된 방법이 CAD60 및 MSRDailyActivity3D와 같은 벤치마크 데이터셋에서 최신 기술 수준 성능을 달성하는가?

주요 결과

제안된 융합 방법은 CAD60 데이터셋에서 이전 방법보다 행동 인식 정확도에서 뛰어난 최신 기술 수준 성능을 달성한다.
MSRDailyActivity3D 데이터셋에서는 유사한 운동 및 자세 패턴을 가진 행동의 인식에서 뚜렷한 향상이 나타난다.
LSTM를 통한 장기적 뼈대 진화 통합이 복잡한 일상 행동 인식을 크게 향상시킨다.
제거 실험 결과, CNN과 LSTM 특징의 조기 융합이 후기 융합 또는 개별 모odal 사용보다 더 뛰어난 성능을 낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.