Skip to main content
QUICK REVIEW

[논문 리뷰] Lattice Long Short-Term Memory for Human Action Recognition

Lin Sun, Kui Jia|arXiv (Cornell University)|2017. 08. 13.
Human Pose and Action Recognition참고 문헌 36인용 수 21
한 줄 요약

이 논문은 공간적으로 변동하는 메모리 셀 전이를 학습하고 RGB 및 옵티컬 플로우 모odalities를 사용하여 입력 및 잊기 게이트를 공동으로 훈련시킴으로써 영상 행동 인식에서 장기 운동 모델링을 향상시키는 새로운 LSTM 아키텍처인 Lattice-LSTM ($\textrm{L}^\textrm{2}\textrm{STM}$)을 제안한다. 이 방법은 모델 복잡도의 최소한의 증가로 UCF-101(93.6%) 및 HMDB-51(66.2%)에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Human actions captured in video sequences are three-dimensional signals characterizing visual appearance and motion dynamics. To learn action patterns, existing methods adopt Convolutional and/or Recurrent Neural Networks (CNNs and RNNs). CNN based methods are effective in learning spatial appearances, but are limited in modeling long-term motion dynamics. RNNs, especially Long Short-Term Memory (LSTM), are able to learn temporal motion dynamics. However, naively applying RNNs to video sequences in a convolutional manner implicitly assumes that motions in videos are stationary across different spatial locations. This assumption is valid for short-term motions but invalid when the duration of the motion is long. In this work, we propose Lattice-LSTM (L2STM), which extends LSTM by learning independent hidden state transitions of memory cells for individual spatial locations. This method effectively enhances the ability to model dynamics across time and addresses the non-stationary issue of long-term motion dynamics without significantly increasing the model complexity. Additionally, we introduce a novel multi-modal training procedure for training our network. Unlike traditional two-stream architectures which use RGB and optical flow information as input, our two-stream model leverages both modalities to jointly train both input gates and both forget gates in the network rather than treating the two streams as separate entities with no information about the other. We apply this end-to-end system to benchmark datasets (UCF-101 and HMDB-51) of human action recognition. Experiments show that on both datasets, our proposed method outperforms all existing ones that are based on LSTM and/or CNNs of similar model complexities.

연구 동기 및 목표

  • 영상에서 비정상적인 장기 운동 동역학을 모델링하는 데 있어 표준 LSTM의 한계를 해결하기 위해.
  • 모델 복잡도를 크게 증가시키지 않으면서 영상 행동 인식의 시간 모델링 능력을 향상시키기 위해.
  • 이중 스트림 아키텍처에서 공유된 제어 게이트를 통해 RGB 및 옵티컬 플로우 모달리티의 공동 학습을 가능하게 하기 위해.
  • RNN이 짧고 긴 시간 동역학을 모두 학습할 수 있도록 하는 샘플링 전략을 개발하기 위해.
  • LSTM 기반 아키텍처를 사용하여 표준 행동 인식 데이터셋에서 최신 기술 수준의 성능를 달성하기 위해.

제안 방법

  • 각 공간 위치에 대해 독립적인 은닉 상태 전이를 학습함으로써 표준 LSTM을 확장한 Lattice-LSTM ($\\textrm{L}^\\textrm{2}\\textrm{STM}$)을 제안하며, 이는 메모리 셀 내에서 공간적으로 변동하는 초합성을 가능하게 한다.
  • 입력 및 잊기 게이트를 공유하고 RGB 및 옵티컬 플로우 입력을 함께 사용하여 훈련하는 이중 스트림 아키텍처를 도입하여, 메모리 셀에 대한 정보 흐름의 다중 모달 제어를 가능하게 한다.
  • 영상 시퀀스에서 클립을 무작위로 샘플링하여 시간 데이터를 보강하고 다양한 시간 동역학을 학습하는 데 도움을 주는 새로운 장단기 샘플링 전략을 적용한다.
  • 표준 LSTM에서 유도된 순환 관계를 공간적으로 변동하는 메모리 셀 업데이트를 허용하도록 수정하여, 복잡하고 비정상적인 운동 패턴의 모델링 능력을 향상시킨다.
  • 사전 훈련된 CNN의 특징 맵을 Lattice-LSTM 네트워크의 입력으로 사용하여 UCF-101 및 HMDB-51에서 엔드 투 엔드 훈련을 수행한다.
  • 국소적으로 초합된 메모리 셀 메커니즘을 도입하여, 은닉 상태의 공간적으로 변동하는 조합을 통해 복잡한 운동 동역학을 포착할 수 있도록 한다.

실험 결과

연구 질문

  • RQ1표준 LSTM 및 ConvLSTM에 비해 수정된 LSTM 아키텍처가 영상에서 비정상적인 장기 운동 동역학을 더 잘 모델링할 수 있는가?
  • RQ2RGB 및 옵티컬 플로우를 함께 사용하여 입력 및 잊기 게이트를 공동으로 훈련시키는 것이 독립적으로 스트림을 처리하는 것보다 행동 인식 성능을 향상시키는가?
  • RQ3장기 및 단기 클립을 조합하는 새로운 샘플링 전략이 영상 행동 인식에서 RNN의 시간 동역학 학습 능력을 향상시키는가?
  • RQ4공간적으로 변동하는 메모리 셀 전이 메커니즘이 복잡한 운동 패턴의 모델링을 얼마나 향상시키는가?
  • RQ5제안된 Lattice-LSTM 아키텍처는 유사한 모델 복잡도를 가진 UCF-101 및 HMDB-51와 같은 표준 벤치마크에서 최신 기술 수준의 성능를 달성하는가?

주요 결과

  • Lattice-LSTM는 UCF-101에서 93.6%의 정확도와 HMDB-51에서 66.2%의 정확도를 기록하여, 유사한 복잡도를 가진 모든 기존의 LSTM 및 CNN 기반 방법을 능가한다.
  • 국소적으로 초합된 메모리 셀을 추가함으로써 표준 VideoLSTM 대비 UCF-101에서 3.8% 향상되고, HMDB-51에서 4.5% 향상된다.
  • 입력 및 잊기 게이트의 다중 모달 공유 훈련은 공간 네트워크에서 1.0% 향상되고, 시간 네트워크에서 0.5% 향상되어 공간 모델링에 더 큰 이점을 제공함을 시사한다.
  • 장단기 샘플링 전략은 표준 샘플링 대비 UCF-101에서 0.8% 향상되고, HMDB-51에서 0.2% 향상된다.
  • 1M Sports 사전 훈련 없이도, Lattice-LSTM는 이러한 사전 훈련에 의존하는 VideoLSTM 및 TwoLSTM 등의 방법보다 성능이 뛰어나다.
  • Lattice-LSTM는 모든 LSTM 유사 아키텍처 중 최신 기술 수준의 성능를 달성하며, TSN 및 ST-ResNet과 같은 더 복잡한 모델들과도 경쟁 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.