QUICK REVIEW

[논문 리뷰] Co-occurrence Feature Learning for Skeleton based Action Recognition using Regularized Deep LSTM Networks

Wentao Zhu, Cuiling Lan|arXiv (Cornell University)|2016. 03. 24.

Human Pose and Action Recognition참고 문헌 27인용 수 289

한 줄 요약

이 논문은 특화된 정규화를 통해 관절의 공동 발생을 학습하고, LSTM 뉴런에 심층 드롭아웃을 적용한 엔드투엔드 딥 LSTM 모델을 제안하여 여러 데이터셋에서 최첨단 성능을 달성한다.

ABSTRACT

Skeleton based action recognition distinguishes human actions using the trajectories of skeleton joints, which provide a very good representation for describing actions. Considering that recurrent neural networks (RNNs) with Long Short-Term Memory (LSTM) can learn feature representations and model long-term temporal dependencies automatically, we propose an end-to-end fully connected deep LSTM network for skeleton based action recognition. Inspired by the observation that the co-occurrences of the joints intrinsically characterize human actions, we take the skeleton as the input at each time slot and introduce a novel regularization scheme to learn the co-occurrence features of skeleton joints. To train the deep LSTM network effectively, we propose a new dropout algorithm which simultaneously operates on the gates, cells, and output responses of the LSTM neurons. Experimental results on three human action recognition datasets consistently demonstrate the effectiveness of the proposed model.

연구 동기 및 목표

골격 관절 궤적에서 강건하고 판별력 있는 특징을 학습하여 동작 인식을 수행한다.
다양한 동작 간의 공동발생 관절 패턴을 자동으로 발견하고 활용한다.
새로운 정규화 및 심층 드롭아웃 전략으로 LSTM 뉴런의 과적합을 완화한다.
여러 골격 기반 동작 데이터셋에서 우수한 성능을 입증한다.

제안 방법

세 개의 양방향 LSTM 계층과 두 개의 feedforward 계층으로 구성된 완전 연결된 심층 LSTM 네트워크를 사용한다.
관절 특징 상호작용을 학습하기 위한 공동 발생 정규화를 도입하고, 손실 함수에서 그룹 단위(L21) 노름과 L1 희소성 항을 통해 구현한다.
판별적 관절 연결을 포착하기 위해 두 번째 LSTM 계층으로 입력되는 연결에 공동 발생 정규화를 적용한다.
입력 게이트, 망각 게이트, 셀, 출력 반응을 드롭하도록 하되 시계열 기억을 지우지 않는 LSTM 유닛용 심층 드롭아웃 메커니즘을 개발한다.
최대 우도와 정규화 항을 결합한 손실로 학습하고, 양방향 LSTM 출력을 모아 최종 클래스 확률을 계산한다.

실험 결과

연구 질문

RQ1공동 발생 정규화가 골격 기반 동작의 판별력 있는 특징 학습을 향상시키는가?
RQ2LSTM 뉴런에 대한 심층 드롭아웃이 복잡한 시간 역학의 학습을 향상시키는가?
RQ3제안된 정규화가 포함된 심층 LSTM이 표준 골격 기반 동작 데이터셋에서 최첨단 방법과 비교해 어떤 성능을 보이는가?

주요 결과

심층 LSTM이 세 가지 공개 데이터셋에서 기본 접근법을 능가한다.
공동 발생 정규화를 추가하면 정확도가 향상된다(예: SBU Kinect: 86.03% → 89.44%).
심층 드롭아웃은 단순 드롭아웃보다 추가적인 개선을 가져온다(예: SBU Kinect: 89.70% → 90.10%).
공동 발생 정규화와 심층 드롭아웃의 결합은 최상의 성능을 달성한다(예: SBU Kinect: 90.41%).
HDM05, CMU 데이터셋 및 Berkeley MHAD에서 제안된 모델은 일관되게 최첨단 또는 우수한 성능을 달성하며, 저자들은 Berkeley MHAD에서 100% 정확도를 언급한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.