QUICK REVIEW

[논문 리뷰] Exploiting Local Features from Deep Networks for Image Retrieval

Joe Yue-Hei Ng, Fan Yang|arXiv (Cornell University)|2015. 04. 20.

Advanced Image and Video Retrieval Techniques참고 문헌 31인용 수 85

한 줄 요약

이 논문은 사전 훈련된 딥 네트워크(OxfordNet 및 GoogLeNet)의 중간 및 저수준 컨볼루션 레이어를 활용하여 인스턴스 수준의 이미지 검색을 수행하며, 국소적 특징을 압축형 128-D 기술자로 요약하기 위해 VLAD 인코딩을 사용한다. 이는 저수준 레이어가 최종 레이어보다 국소적 객체 패턴을 더 잘 유지하며, 더 높은 입력 해상도가 특징 품질을 향상시킨다는 것을 보여주며, 낮은 차원의 표현을 사용하여 세 가지 벤치마크 데이터셋 중 두 개에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Deep convolutional neural networks have been successfully applied to image classification tasks. When these same networks have been applied to image retrieval, the assumption has been made that the last layers would give the best performance, as they do in classification. We show that for instance-level image retrieval, lower layers often perform better than the last layers in convolutional neural networks. We present an approach for extracting convolutional features from different layers of the networks, and adopt VLAD encoding to encode features into a single vector for each image. We investigate the effect of different layers and scales of input images on the performance of convolutional features using the recent deep networks OxfordNet and GoogLeNet. Experiments demonstrate that intermediate layers or higher layers with finer scales produce better results for image retrieval, compared to the last layer. When using compressed 128-D VLAD descriptors, our method obtains state-of-the-art results and outperforms other VLAD and CNN based approaches on two out of three test datasets. Our work provides guidance for transferring deep networks trained on image classification to image retrieval tasks.

연구 동기 및 목표

사전 훈련된 CNN의 낮은 또는 높은 레이어에서 추출한 특징이 인스턴스 수준의 이미지 검색에 얼마나 효과적인지 조사한다.
입력 이미지 척도가 컨볼루션 특징 품질과 검색 성능에 미치는 영향을 검토한다.
다중 척도 특징과 VLAD 인코딩을 조합하여 압축적이고 구분력 있는 이미지 표현을 개발한다.
중간 레이어가 검색 작업에서 최종 레이어를 초월하는 이유에 대한 경험적이고 시각적 통찰을 제공한다.
낮은 차원(128-D)의 VLAD 기술자가 중간 레이어에서 유도될 경우, 더 높은 차원의 기술자나 SIFT 기반 접근법보다도 우수한 성능을 낼 수 있음을 보여준다.

제안 방법

OxfordNet 및 GoogLeNet의 다수의 컨볼루션 레이어(예: Inception 4e, Inception 5b, conv4_2, conv5_1)에서 활성화 맵을 추출한다.
VLAD 인코딩을 적용하여 국소적 컨볼루션 특징을 이미지당 하나의 벡터로 요약하며, 공간적 정보와 국소 패턴 정보를 유지한다.
다양한 척도의 입력(원본 및 더 높은 해상도)을 사용하여 레이어 간 특징 표현에 대한 척도 영향을 평가한다.
VLAD 기술자를 128차원으로 압축하기 위해 PCA와 화이트닝을 적용하여 저장 및 검색 효율성을 높인다.
가장 성능이 뛰어난 레이어에서 유도된 다중 척도 특징을 연결하여 VLAD 기술자를 결합한다.
Holidays, Oxford, Paris 데이터셋을 사용하여 표준 벤치마크를 기반으로 성능을 평가한다.

실험 결과

연구 질문

RQ1사전 훈련된 CNN의 낮은 레이어 또는 높은 레이어에서 추출한 특징 중 어느 것이 인스턴스 수준의 이미지 검색에 더 효과적인가?
RQ2입력 이미지 척도가 컨볼루션 특징 품질과 검색 정확도에 어떤 영향을 미치는가?
RQ3중간 레이어에서 유도된 VLAD 인코딩 특징이 낮은 차원의 표현으로도 경쟁적인 성능을 낼 수 있는가?
RQ4왜 낮은 레이어가 인스턴스 검색 작업에서 국소 패턴을 더 잘 유지하는가?
RQ5단일 척도 입력에 비해 다중 척도 특징 추출이 검색 성능 향상에 기여하는가?

주요 결과

중간 또는 저수준 레이어(예: Inception 4e, conv4_2)에서 추출한 특징이 인스턴스 수준의 이미지 검색에서 최종 레이어의 특징보다 우수하다.
더 높은 입력 해상도가 깊이 있는 레이어에서 특징 품질을 크게 향상시키며, 이는 국소 패턴을 효과적으로 포착할 수 있도록 한다.
제안된 방법은 128-D VLAD 기술자를 사용하여 Holidays 및 Paris 데이터셋에서 최신 기술 수준의 성능을 달성한다.
128-D 표현임에도 불구하고, BoW 및 VLAD 인코딩을 사용한 SIFT 기반 접근법과, MOP-CNN(512-D)와 같은 더 높은 차원의 CNN 기반 방법보다도 성능이 뛰어나다.
네트워크 미세조정이나 대규모 데이터를 사용하지 않음에도 불구하고 [3]을 초월하는 성능을 보이며, 레이어 선택 및 척도 인식 특징 추출의 효과성을 입증한다.
공간 정보를 제거할 경우 성능이 크게 떨어지며, 이는 국소 특징 인코딩과 다중 척도 처리의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.