QUICK REVIEW

[논문 리뷰] DeepGaze II: Reading fixations from deep features trained on object recognition

Matthias Kümmerer, Thomas S. A. Wallis|arXiv (Cornell University)|2016. 10. 05.

Advanced Image and Video Retrieval Techniques참고 문헌 5인용 수 260

한 줄 요약

DeepGaze II는 SALICON에서 사전 학습된 고정 VGG-19 피처에 비선형 읽기를 적용하여 주의력을 예측하고, 바탕 네트워크 재학습 없이 정보 이득 및 MIT300 AUC/sAUC 성능에서 최첨단을 달성합니다.

ABSTRACT

Here we present DeepGaze II, a model that predicts where people look in images. The model uses the features from the VGG-19 deep neural network trained to identify objects in images. Contrary to other saliency models that use deep features, here we use the VGG features for saliency prediction with no additional fine-tuning (rather, a few readout layers are trained on top of the VGG features to predict saliency). The model is therefore a strong test of transfer learning. After conservative cross-validation, DeepGaze II explains about 87% of the explainable information gain in the patterns of fixations and achieves top performance in area under the curve metrics on the MIT300 hold-out benchmark. These results corroborate the finding from DeepGaze I (which explained 56% of the explainable information gain), that deep features trained on object recognition provide a versatile feature space for performing related visual tasks. We explore the factors that contribute to this success and present several informative image examples. A web service is available to compute model predictions at http://deepgaze.bethgelab.org.

연구 동기 및 목표

고정된 딥 피처가 물체 인식에서 파생된 것으로도 미세조정 없이 강력한 주의력 공간으로 작용할 수 있음을 시연한다.
모델의 정보이론적 성능(설명된 정보 이득)을 벤치마크 데이터세트에서 정량화한다.
MIT300에서의 성능을 평가하고 이전의 주의력 모델과 비교한다.
사전 학습 및 피처 유형이 주의력 예측에 미치는 영향을 보여준다.
중앙 편향을 모델링하고 그것이 예측에 미치는 영향을 평가한다.

제안 방법

VGG-19 피처(conv5_1, relu5_1, relu5_2, conv5_3, relu5_4)를 공통 해상도로 매핑한다.
고정된 VGG 피처 위에 4계층 1x1 컨볼루션 읽기(readout) 네트워크를 학습시켜 주의 점수 O(x,y)를 생성한다.
O(x,y)를 가우시안으로 컨볼루션하고 중심 편향 사전값을 더한 뒤 소프트맥스를 적용해 확률 맵 p(x,y)를 얻는다.
확률적 프레임워크를 사용한 최대가능도(로그우도)로 학습하고 평가 척도로 정보 이득을 사용한다.
SALICON에서 읽어쓰기를 사전 학습한 뒤 MIT1003에서 이미지별 교차 검증으로 미세조정; MIT300의 보류 세트에서 평가한다.
학습된 특징을 제한하기 위해 1x1 컨볼루션을 사용하여 VGG 특징에 포인트와이 비선형성만을 허용한다.

실험 결과

연구 질문

RQ1물체 인식(VGG-19)에서 얻은 고정 딥 피처가 피처 추출기를 재학습하지 않더라도 강력하고 전이 가능한 주의력 예측 공간을 제공할 수 있는가?
RQ2학습된 읽기(readout)를 사용한 고정된 딥 피처로 얼마나 많은 설명 가능한 정보 이득을 주의력 모델이 달성할 수 있는가?
RQ3사전 학습(SALICON) 및 피처 선택(VGG 대 AlexNet)이 주의력 성능에 어떤 기여를 하는가?
RQ4센터 바이어스가 포함된 제안된 확률적 읽기 방식은 MIT300의 벤치마크 주의 지표에 대해 어떻게 성과를 내는가?
RQ5DeepGaze II의 예측과 골드 스탠다드 고정점들과의 비교에서 어떤 질적 통찰이 도출되는가?

주요 결과

DeepGaze II는 MIT1003 부분집합에서 설명 가능한 정보 이득의 87%를 차지하며, 이전 DeepGaze I의 56%에 비해 큰 향상을 보였다.
MIT300에서 DeepGaze II는 MIT 주의 벤치마크에서 최상위 AUC 및 섞인 AUC를 달성했다(센터 편향 포함 시 88% AUC, 77% sAUC).
DeepGaze II는 평가된 하위 집합에서 골드 표준에 근접한 성능을 보이며, 예측이 기반 중앙 편향보다 나쁐다고 평가된 이미지가 없는 것에 가깝다.
사전 학습된 VGG 피처와 SALICON 사전 학습이 DeepGaze I 대비 성능 향상의 주요 요인이다.
모델은 VGG 피처를 재학습시키지 않고도 작은 1x1 읽기와 확률적 수식에 의존해 강한 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.