QUICK REVIEW

[논문 리뷰] Unsupervised Learning of Video Representations using LSTMs

Nitish Srivastava, Elman Mansimov|arXiv (Cornell University)|2015. 02. 16.

Human Pose and Action Recognition참고 문헌 30인용 수 1,663

한 줄 요약

이 논문은 레이블이 없는 YouTube 영상에서 비정형 영상 시퀀스로부터 영상 표현을 학습하기 위해 비지도 학습 기반의 LSTM 기반 오토인코더 및 미래 예측 모델을 제안한다. 레이블 없이 YouTube 영상에서 훈련함으로써, 모델은 분리된, 일반화 가능한 특징을 학습하며, 특히 레이블이 적은 경우에 행동 인식 정확도를 향상시킨다. 이는 UCF-101 및 HMDB-51에서 강력한 전이 학습 성능을 보여준다.

ABSTRACT

We use multilayer Long Short Term Memory (LSTM) networks to learn representations of video sequences. Our model uses an encoder LSTM to map an input sequence into a fixed length representation. This representation is decoded using single or multiple decoder LSTMs to perform different tasks, such as reconstructing the input sequence, or predicting the future sequence. We experiment with two kinds of input sequences - patches of image pixels and high-level representations ("percepts") of video frames extracted using a pretrained convolutional net. We explore different design choices such as whether the decoder LSTMs should condition on the generated output. We analyze the outputs of the model qualitatively to see how well the model can extrapolate the learned video representation into the future and into the past. We try to visualize and interpret the learned features. We stress test the model by running it on longer time scales and on out-of-domain data. We further evaluate the representations by finetuning them for a supervised learning problem - human action recognition on the UCF-101 and HMDB-51 datasets. We show that the representations help improve classification accuracy, especially when there are only a few training examples. Even models pretrained on unrelated datasets (300 hours of YouTube videos) can help action recognition performance.

연구 동기 및 목표

시간적 시퀀스 모델링을 통해 레이블 없이도 의미 있는, 분리된 영상 표현을 비지도 방식으로 학습하는 것.
LSTM 기반 비지도 사전 훈련이 후속 지도 학습 기반 행동 인식 작업 성능에 기여하는지 평가하는 것.
재구성 vs. 미래 예측과 같은 다양한 훈련 목표가 표현 품질에 미치는 영향을 조사하는 것.
학습 시간 스케일을 초월해 학습된 표현의 일반화 및 외삽 능력을 분석하는 것.
예를 들어 300시간의 YouTube 영상에서 학습된 표현이 행동 인식 벤치마크에 얼마나 잘 전이되는지 평가하는 것.

제안 방법

영상 프레임의 시퀀스를 고정 길이의 잠재 표현으로 압축하기 위해 다층 LSTM 인코더를 사용한다.
입력 시퀀스를 재구성하거나 인코딩된 표현에서 미래 프레임을 예측하기 위해 하나 이상의 디코더 LSTM을 활용한다.
주요 두 가지 목표인 오토인코딩(재구성)과 미래 예측을 사용하여 모델을 훈련하며, 둘 다 포함된 복합 모델을 사용한다.
두 가지 입력 유형을 사용한다: 원시 이미지 패치(예: MNIST 숫자)와 사전 훈련된 ImageNet 컨볼루션 네트워크에서 유도된 고수준 인식 정보.
생성된 출력을 다시 디코더에 피드백하여 조건부 디코딩을 적용하며, 조건부 적용 여부에 따른 성능을 비교한다.
UCF-101 및 HMDB-51 데이터셋을 사용하여 지도 학습 기반 행동 인식 작업에서 인코더를 미세 조정함으로써 표현을 평가한다.

실험 결과

연구 질문

RQ1비지도 LSTM 기반 모델이 레이블 없이도 운동과 외관의 구조를 포괄하는 일반화 가능한 영상 표현을 학습할 수 있는가?
RQ2재구성과 미래 예측 목표를 함께 사용할 경우, 각각을 별도로 사용할 때보다 학습된 표현의 품질에 어떤 영향을 미치는가?
RQ3예를 들어 YouTube 영상에서 학습된 표현(예: 300시간)이 레이블이 적은 경우 행동 인식 성능을 얼마나 향상시키는가?
RQ4학습된 시퀀스 길이를 초월해 모델이 운동과 외관을 얼마나 잘 외삽하는가?
RQ5자신의 생성된 출력을 디코더에 조건부로 피드백함으로써 미래 예측의 품질이나 표현 학습의 품질이 향상되는가?

주요 결과

재구성과 미래 예측 목표를 모두 포함한 복합 모델이 행동 인식에서 가장 높은 성능을 기록했으며, UCF-101에서 75.8%의 정확도와 HMDB-51에서 44.0%의 정확도를 달성했다.
300시간의 YouTube 영상에서 사전 훈련한 결과, 특히 레이블이 적은 경우 행동 인식 정확도가 크게 향상되었다.
학습 시간 스케일을 초월해도 지속적으로 합리적인 운동 시퀀스를 생성하는 능력을 보였지만, 장기 예측에서는 물체의 세부 사항이 떨어지는 경향을 보였다.
디코더에 자체 출력을 조건부로 피드백하는 것은 지도 학습 성능에 큰 영향을 주지 않았지만, 약간 더 우수한 질적 미래 예측을 이끌어냈다.
기본 LSTM 베이스라인을 뛰어넘었으며, RGB 데이터만을 사용하는 LRCN 및 C3D와 같은 최신 기술과 비교해도 성능이 뛰어나거나 이를 초월했다.
RGB와 플로우 기반 예측을 융합한 결과 UCF-101에서 84.3%의 정확도를 기록했으며, 다른 모odalities와의 융합 잠재력이 매우 높음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.