QUICK REVIEW

[논문 리뷰] Siamese Network of Deep Fisher-Vector Descriptors for Image Retrieval

Eng-Jon Ong, Syed Sameed Husain|arXiv (Cornell University)|2017. 02. 01.

Advanced Image and Video Retrieval Techniques참고 문헌 2인용 수 35

한 줄 요약

이 논문은 대규모 이미지 검색 성능을 햖스키기 위해 깊이 학습된 컨volutional 신경망(CNN) 필터와 파이셔 벡터 파라미터를 동시에 최적화하는 시아미즈 딥 러닝 아키텍처를 제안한다. 시아미즈 프레임워크 내에서 딥 CNN 기반 기술자와 파이셔 벡터 인코딩을 융합함으로써, 특히 100만 개의 간섭자(1 million distractors)가 포함된 도전적인 조건에서도 옥스포드 및 파리 기준 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

This paper addresses the problem of large scale image retrieval, with the aim of accurately ranking the similarity of a large number of images to a given query image. To achieve this, we propose a novel Siamese network. This network consists of two computational strands, each comprising of a CNN component followed by a Fisher vector component. The CNN component produces dense, deep convolutional descriptors that are then aggregated by the Fisher Vector method. Crucially, we propose to simultaneously learn both the CNN filter weights and Fisher Vector model parameters. This allows us to account for the evolving distribution of deep descriptors over the course of the learning process. We show that the proposed approach gives significant improvements over the state-of-the-art methods on the Oxford and Paris image retrieval datasets. Additionally, we provide a baseline performance measure for both these datasets with the inclusion of 1 million distractors.

연구 동기 및 목표

강력한 이미지 표현을 학습함으로써 대규모 이미지 검색 정확도를 향상시키는 것.
질의 이미지에 대해 수천 개에서 수백만 개의 이미지를 순위 매기는 과제를 해결하는 것.
진화하는 딥 기술자 분포에 적응하기 위해 CNN 필터 가중치와 파이셔 벡터 파라미터를 동시에 최적화하는 것.
딥 컨volutional 특징과 파이셔 벡터 인코딩을 융합하여 특징 집약을 향상시키는 것.
표준 기준 데이터셋에서 100만 개의 간섭자를 포함한 새로운 기준 성능을 설정하는 것.

제안 방법

이 방법은 두 개의 동일한 브랜치를 가진 시아미즈 네트워크를 사용하며, 각 브랜치는 하나의 이미지 입력을 처리한다.
각 브랜치는 먼저 입력 이미지에서 조밀한 딥 컨volutional 기술자를 추출하기 위해 CNN을 적용한다.
CNN 출력은 파이셔 벡터 방법을 사용하여 집약되어 고정 길이의 벡터 표현을 생성한다.
핵심적으로, 네트워크는 CNN 필터와 파이셔 벡터 파라미터를 종단 간(end-to-end)으로 동시에 훈련시킨다.
시아미즈 아키텍처는 유사한 이미지 쌍의 임베딩 간 거리를 최소화함으로써 유사도 메트릭을 학습할 수 있도록 한다.
모델은 양성 쌍에 대해 작은 거리를, 음성 쌍에 대해 큰 거리를 유도하는 대trastive 손실 함수를 사용하여 훈련된다.

실험 결과

연구 질문

RQ1CNN 필터와 파이셔 벡터 파라미터의 동시 최적화가 이미지 검색 성능 향상에 기여하는가?
RQ2제안된 시아미즈 네트워크와 파이셔 벡터 집약 방식은 대규모 이미지 검색 기준 데이터셋에서 최신 기술 수준의 방법들과 비교해 어떻게 성능을 내는가?
RQ3100만 개의 간섭자를 포함했을 때 검색 성능에 어떤 영향을 미치며, 제안된 방법은 이 과제를 어떻게 처리하는가?
RQ4CNN과 파이셔 벡터 구성 요소를 별도로 훈련하는 것보다 동시 학습이 딥 기술자 분포에 더 잘 적응하는가?
RQ5제안된 방법은 옥스포드 및 파리와 같은 표준 이미지 검색 데이터셋에 잘 일반화되는가?

주요 결과

제안된 방법은 옥스포드 및 파리 이미지 검색 기준 데이터셋에서 최신 기술 수준의 성능을 달성한다.
특히 데이터셋에 100만 개의 간섭자가 포함된 테스트에서 기존 방법들보다 뚜렷이 뛰어난 성능을 보인다.
CNN과 파이셔 벡터 파라미터의 동시 학습은 더 강력하고 구분력 있는 이미지 표현을 이끈다.
파이셔 벡터 집약을 통한 시아미즈 아키텍처는 단독으로 사용되는 CNN 또는 파이셔 벡터 접근 방식보다 순위 매기기 정확도를 향상시킨다.
이 방법은 대규모 실세계 조건에서 옥스포드 및 파리 데이터셋에 대한 새로운 기준 성능을 설정한다.
평가에 100만 개의 간섭자를 포함시킴으로써 모델의 강건성과 확장성의 우수함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.