QUICK REVIEW

[논문 리뷰] Two Stream LSTM: A Deep Fusion Framework for Human Action Recognition

Harshala Gammulle, Simon Denman|arXiv (Cornell University)|2017. 04. 04.

Human Pose and Action Recognition참고 문헌 34인용 수 25

한 줄 요약

이 논문은 사전 훈련된 VGG-16 CNN의 공간적 특징과 두 개의 별도 LSTM 스트림으로 모델링한 시간적 동역학을 융합하는 Two Stream LSTM 프레임워크를 제안한다. 하나의 스트림은 합성곱 특징을 처리하고, 다른 하나는 완전 연결 특징을 처리한다. 이 방법은 UCF11(94.6%), UCFSports, jHMDB에서 최신 기술 수준의 정확도를 달성하며, 완전 연결 특징을 암시적 어텐션 메커니즘으로 사용하여 이전 방법보다 더 적은 파라미터로 인식 성능을 향상시킨다.

ABSTRACT

In this paper we address the problem of human action recognition from video sequences. Inspired by the exemplary results obtained via automatic feature learning and deep learning approaches in computer vision, we focus our attention towards learning salient spatial features via a convolutional neural network (CNN) and then map their temporal relationship with the aid of Long-Short-Term-Memory (LSTM) networks. Our contribution in this paper is a deep fusion framework that more effectively exploits spatial features from CNNs with temporal features from LSTM models. We also extensively evaluate their strengths and weaknesses. We find that by combining both the sets of features, the fully connected features effectively act as an attention mechanism to direct the LSTM to interesting parts of the convolutional feature sequence. The significance of our fusion method is its simplicity and effectiveness compared to other state-of-the-art methods. The evaluation results demonstrate that this hierarchical multi stream fusion method has higher performance compared to single stream mapping methods allowing it to achieve high accuracy outperforming current state-of-the-art methods in three widely used databases: UCF11, UCFSports, jHMDB.

연구 동기 및 목표

혼잡한 환경, 가림, 복잡한 운동이 있는 실생활 영상에서 인간 행동 인식의 과제를 해결하기 위해.
깊이 있는 융합을 통해 공간적 및 시간적 특징을 효과적으로 조합하여 인식 정확도를 향상시키기 위해.
CNN의 완전 연결 층 활성화가 LSTM 처리를 가로질러 중요한 영역으로 유도하는 어텐션 메커니즘으로 기능할 수 있는지 조사하기 위해.
다중 스트림 또는 이중 네트워크 아키텍처의 계산 비용이 높은 대안을 개발하기 위해.
제안된 융합 프레임워크를 표준 벤치마크(UFC11, UCFSports, jHMDB)에서 평가하기 위해.

제안 방법

모델은 사전 훈련된 VGG-16 네트워크를 사용하여 영상 프레임에서 공간적 특징을 추출하며, 마지막 합성곱 층 출력을 하나의 스트림으로 사용한다.
두 번째 LSTM 스트림은 동일한 CNN의 첫 번째 완전 연결 층 출력을 처리하여 고수준 의미적 표현을 캡처한다.
공간적 및 의미적 특징 시퀀스를 별도로 처리하기 위해 두 개의 별도 LSTM이 사용된다.
두 스트림의 출력을 융합하기 위해 제3의 LSTM 레이어가 사용되어 공동의 시공간적 의존성을 모델링한다.
융합 전략은 완전 연결 특징을 활용하여 LSTM이 특징 시퀀스에서 가장 중요한 부분으로 집중하도록 암시적으로 유도하며, 어텐션 메커니즘으로 작용한다.
전체 모델은 교차 엔트로피 손실을 사용하여 행동 인식 데이터셋에서 엔드 투 엔드로 미세조정된다.

실험 결과

연구 질문

RQ1CNN의 합성곱 특징과 완전 연결 특징을 두 개의 별도 LSTM 스트림으로 융합하면 행동 인식 성능이 향상되는가?
RQ2완전 연결 층 활성화의 사용이 LSTM이 특징 시퀀스의 관련 시간 세그먼트에 집중하는 데 미치는 영향은 무엇인가?
RQ3제안된 이중 스트림 융합 프레임워크가 표준 벤치마크에서 단일 스트림 또는 다중 스트림 베이스라인을 초월하는가?
RQ4기존 최신 기술 수준의 방법과 비교해 모델이 파라미터 수를 얼마나 줄였는가? 이는 정확도 유지 또는 향상과 어떻게 관련되는가?
RQ5유사한 외관을 가진 다양한 행동 클래스(다른 운동 패턴을 가짐)에 대해 모델의 일반화 능력은 얼마나 우수한가?

주요 결과

제안된 Two Stream LSTM 프레임워크는 UCF11 데이터셋에서 94.6%의 정확도를 달성하여 이전 최신 기술 수준보다 5.1% 포인트 높은 성능을 보였다.
UCFSports 데이터셋에서, 골프 스윙과 크로켓 스윙처럼 외관이 유사한 행동 간의 구분 능력이 뛰어나지 않아 발생하던 혼동이 감소하여, 이전 연구 대비 향상된 성능을 보였다.
jHMDB 데이터셋에서 '倒기', '골프', '계단 올라가기', '풀업'과 같은 도전적인 클래스에서도 높은 정확도를 기록했으며, '슛 공'과 '점프'의 경우 [7]보다 성능이 향상되었다.
완전 연결 특징은 암시적 어텐션 메커니즘으로 기능하여 LSTM이 합성곱 특징 시퀀스에서 가장 관련성이 높은 부분으로 집중하도록 이끌었다.
모델은 단지 14100만 개의 파라미터를 사용하여 이전 방법들인 [7](180M) 및 [26](300M)보다 훨씬 적은 파라미터를 사용하여 계산 효율성이 뛰어나다는 것을 입증했다.
제3의 LSTM 레이어를 통한 두 스트림의 융합이 가장 높은 성능을 보였으며, 계층적 다중 스트림 융합의 유용성을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.