QUICK REVIEW

[논문 리뷰] Predicting Video Saliency with Object-to-Motion CNN and Two-layer Convolutional LSTM

Lai Jiang, Mai Xu|arXiv (Cornell University)|2017. 09. 19.

Visual Attention and Saliency Detection참고 문헌 66인용 수 72

한 줄 요약

이 논문은 객체성, 모션, 그리고 프레임 간 saliency 전이의 결합 모델링을 통해 픽셀 수준의 비디오 saliency를 예측하는 심층 학습 프레임워크(OM-CNN with 2C-LSTM)를 도입하며, 새로운 LEDOV 데이터셋에서 학습됩니다.

ABSTRACT

Over the past few years, deep neural networks (DNNs) have exhibited great success in predicting the saliency of images. However, there are few works that apply DNNs to predict the saliency of generic videos. In this paper, we propose a novel DNN-based video saliency prediction method. Specifically, we establish a large-scale eye-tracking database of videos (LEDOV), which provides sufficient data to train the DNN models for predicting video saliency. Through the statistical analysis of our LEDOV database, we find that human attention is normally attracted by objects, particularly moving objects or the moving parts of objects. Accordingly, we propose an object-to-motion convolutional neural network (OM-CNN) to learn spatio-temporal features for predicting the intra-frame saliency via exploring the information of both objectness and object motion. We further find from our database that there exists a temporal correlation of human attention with a smooth saliency transition across video frames. Therefore, we develop a two-layer convolutional long short-term memory (2C-LSTM) network in our DNN-based method, using the extracted features of OM-CNN as the input. Consequently, the inter-frame saliency maps of videos can be generated, which consider the transition of attention across video frames. Finally, the experimental results show that our method advances the state-of-the-art in video saliency prediction.

연구 동기 및 목표

깊은 학습을 통해 충분한 훈련 데이터와 함께 정확한 비디오 saliency 예측을 동기 부여한다.
비디오에서 객체와 모션이 인간의 주의 를 끌어들이는 역할을 분석한다.
프레임 내 saliency와 프레임 간 saliency 전이를 모델링하는 아키텍처를 개발한다.
훈련과 평가를 지원하기 위해 대규모 아이 트래킹 비디오 데이터베이스(LEDOV)를 제공한다.

제안 방법

객체성 및 모션의 두 서브넷을 가진 OM-CNN을 제안하며, 객체성은 모션 특징 추출을 안내한다.
거친 객체성 맵으로 모션 특징을 마스킹해 객체 영역에 집중한다.
객체성의 공간 특징과 모션의 시간 특징을 연결해 saliency 예측을 위한 시공간 특징을 형성한다.
프레임 간 픽셀 단위 saliency 전이를 예측하기 위해 Bayesian dropout을 사용하는 Two-layer Convolutional LSTM(2C-LSTM)을 개발한다.
2C-LSTM 출력으로 프레임별 saliency 맵을 생성하기 위해 두 개의 Deconvolutional 레이어를 사용한다.
고정된 saliency 분포를 가정하지 않고 LEDOV 데이터에서 엔드-투-엔드로 학습해 동적 saliency를 학습한다.

실험 결과

연구 질문

RQ1객체성 및 모션을 통합한 OM-CNN이 프레임 내 saliency 예측을 개선하는가?
RQ2Bayesian dropout을 갖는 합성곱 LSTM 아키텍처가 비디오 프레임 간의 saliency 전이를 포착하는가?
RQ3객체 영역과 모션 신호가 이전 방법들에 비해 비디오 saliency 예측에 어떤 영향을 미치는가?
RQ4대규모 LEDOV 아이 트래킹 데이터베이스가 비디오 saliency 모델의 학습 및 평가에 어떤 도움을 주는가?

주요 결과

제안된 OM-CNN은 객체성 및 모션을 효과적으로 통합하여 프레임 내 saliency를 예측한다.
2C-LSTM을 이용한 시간 모델링은 프레임 간 saliency 전이를 포착한다.
2C-LSTM에서 Bayesian dropout은 saliency 예측의 불확실성을 처리하는 데 사용된다.
LEDOV는 학습 및 분석을 위한 대규모의 다양성 있는 비디오 아이 트래킹 데이터셋을 제공한다.
저자들의 실험에 따르면 이 방법은 비디오 saliency 예측에서 최첨단을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.