QUICK REVIEW

[논문 리뷰] OpenSalicon: An Open Source Implementation of the Salicon Saliency Model

Christopher Thomas|arXiv (Cornell University)|2016. 06. 01.

Visual Attention and Saliency Detection참고 문헌 4인용 수 25

한 줄 요약

이 논문은 Caffe 프레임워크를 사용한 SALICON 색시움 모델의 오픈소스 구현인 OpenSalicon을 제시한다. 연구자들이 자체 데이터셋에서 학습 및 테스트를 수행할 수 있도록 하며, 사전 훈련된 모델을 통해 MIT 300 벤치마크에서 원본 모델의 성능을 재현한다. 또한 다중 스케일 입력 처리 및 업샘플링 및 데이터 입력을 위한 커스텀 레이어를 지원하여 학습 및 추론을 모두 가능하게 한다.

ABSTRACT

In this technical report, we present our publicly downloadable implementation of the SALICON saliency model. At the time of this writing, SALICON is one of the top performing saliency models on the MIT 300 fixation prediction dataset which evaluates how well an algorithm is able to predict where humans would look in a given image. Recently, numerous models have achieved state-of-the-art performance on this benchmark, but none of the top 5 performing models (including SALICON) are available for download. To address this issue, we have created a publicly downloadable implementation of the SALICON model. It is our hope that our model will engender further research in visual attention modeling by providing a baseline for comparison of other algorithms and a platform for extending this implementation. The model we provide supports both training and testing, enabling researchers to quickly fine-tune the model on their own dataset. We also provide a pre-trained model and code for those users who only need to generate saliency maps for images without training their own model.

연구 동기 및 목표

최고 성능을 내는 색시움 모델인 SALICON의 공개된 구현이 부족한 문제를 해결하기 위해, 벤치마크에서 높은 성능를 보였음에도 불구하고 사용자가 다운로드할 수 없는 상황를 해결한다.
시각적 주의 모델링을 위한 연구 기준이 될 수 있도록, SALICON 모델의 기능이 완전히 구현된 오픈소스 구현을 제공한다.
사전 훈련된 VGG-16 가중치를 사용하여 연구자가 자신의 데이터셋에서 전이 학습을 통해 모델을 최적화할 수 있도록 한다.
명확한 설정 파일과 데이터 입력 및 업샘플링을 위한 커스텀 레이어를 제공하여 학습 및 추론 워크플로우를 모두 지원한다.
단일 이미지 기반 기울기 계산을 포함하여, 원본 모델의 아키텍처와 훈련 절차를 가능한 한 정확히 재현함으로써 재현 가능성을 확보한다.

제안 방법

모델은 동일한 이미지를 굵은 스케일과 미세한 스케일에서 처리하는 두 개의 병렬 VGG-16 네트워크를 사용하며, 입력 이미지를 원본 논문의 출력 차원에 맞추기 위해 600×800과 1200×1600으로 크기 조정한다.
커스텀 'CustomData' 레이어를 통해 파이썬에서 직접 다중 스케일 이미지 데이터를 입력할 수 있도록 하여 Caffe의 기본 데이터 레이어를 우회하며, 유연한 입력 크기 설정을 지원한다.
커스텀 'custom_interpolation_layer' 레이어는 병합 전에 굵은 스케일 특징 맵을 미세 스케일 출력의 차원에 맞추기 위해 이차 보간을 통해 이중선형 업샘플링을 수행한다.
완전 연결 레이어를 1×1 컨볼루션 '색시움 맵' 레이어로 대체하여 입력 이미지 전역에 걸쳐 조밀한 색시움 예측을 생성한다.
원본 논문의 접근 방식을 따라, 미니배치 훈련을 피하기 위해 한 번에 하나의 이미지만 처리하는 커스텀 파이썬 솔버(finetune_salicon.py)를 사용하여 훈련을 수행한다.
사전 훈련된 가중치는 공유된 컨볼루션 특징에 대해 ImageNet 사전 훈련된 VGG-16을 사용하여 초기화하고, 색시움 맵 레이어는 가우시안 및 상수 편향을 사용하여 무작위로 초기화한다.

실험 결과

연구 질문

RQ1재현 가능성과 향후 연구를 지원하기 위해, SALICON 색시움 모델의 기능이 완전히 구현된 오픈소스 구현을 만들 수 있는가?
RQ2표준 벤치마크인 MIT 300에서 오픈소스 구현의 성능이 원본 SALICON 모델과 비교하여 어떻게 되는가?
RQ3특히 입력 스케일링과 기울기 계산에 관여하는 아키텍처 및 훈련 선택 사항은 무엇이며, 원본 SALICON 모델의 행동을 재현하기 위해 필수적인가?
RQ4사전 훈련된 VGG-16 가중치를 사용한 전이 학습을 통해 모델을 새로운 데이터셋에서 얼마나 잘 최적화할 수 있는가?
RQ5임계치 설정과 같은 후처리가 색시움 맵 품질을 크게 향상시키는가? 만약 그렇다면, 오픈소스 출력에 어떻게 적용할 수 있는가?

주요 결과

오픈소스 구현은 salicon.net의 원본 SALICON 데모에서 생성된 색시움 맵과 정성적으로 매우 유사한 결과를 도출하여, 모델의 행동이 정확히 재현되었음을 확인한다.
원본 논문에서 기술된 바와 같이 출력 차원을 38×50로 조정하기 위해, 원래의 300×400과 600×800에서 입력 해상도를 두 배로 늘렸다.
원본 논문에서 보고된 바와 같이, 성능 저하를 방지하기 위해 미니배치 훈련을 피하고 단일 이미지 기반 기울기 업데이트를 사용하여 훈련 절차를 수행한다.
사전 훈련된 모델은 MIT 300의 고정점 예측 벤치마크에서 원본 SALICON 모델과 유사한 성능를 달성하지만, 원본 데모의 출력은 후처리 덕분에 더 선명해 보인다.
사용자는 모델 출력에 단순한 임계치 설정 연산을 적용하여 원본 데모와 유사한 시각적 품질의 고해상도 색시움 맵을 얻을 수 있다.
이 구현은 테스트, 학습, 솔버 설정을 위한 별도의 prototxt 파일을 포함하여 학습 및 추론 모두에서 완전한 모ularity를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.