QUICK REVIEW

[논문 리뷰] Selective Convolutional Descriptor Aggregation for Fine-Grained Image Retrieval

Xiu-Shen Wei, Jian-Hao Luo|arXiv (Cornell University)|2016. 04. 18.

Advanced Image and Video Retrieval Techniques참고 문헌 39인용 수 34

한 줄 요약

이 논문은 사전 훈련된 CNN 특징을 사용하여 이미지 내 주요 객체를 국소화하고, 구분력 있는 컨volutional 디스크립터를 조합하여 압축된 특징 벡터를 생성하는 비지도 학습 방법인 선택적 컨volutional 디스크립터 집합(Selective Convolutional Descriptor Aggregation, SCDA)을 제안한다. SCDA는 여섯 개인 미세 분류 데이터셋에서 최고 성능을 기록하고 일반적인 검색 벤치마크에서도 유사한 성능을 보이며, 시각화 결과로 미세한 시각적 특징을 잘 포착함을 확인할 수 있다.

ABSTRACT

Deep convolutional neural network models pre-trained for the ImageNet classification task have been successfully adopted to tasks in other domains, such as texture description and object proposal generation, but these tasks require annotations for images in the new domain. In this paper, we focus on a novel and challenging task in the pure unsupervised setting: fine-grained image retrieval. Even with image labels, fine-grained images are difficult to classify, let alone the unsupervised retrieval task. We propose the Selective Convolutional Descriptor Aggregation (SCDA) method. SCDA firstly localizes the main object in fine-grained images, a step that discards the noisy background and keeps useful deep descriptors. The selected descriptors are then aggregated and dimensionality reduced into a short feature vector using the best practices we found. SCDA is unsupervised, using no image label or bounding box annotation. Experiments on six fine-grained datasets confirm the effectiveness of SCDA for fine-grained image retrieval. Besides, visualization of the SCDA features shows that they correspond to visual attributes (even subtle ones), which might explain SCDA's high mean average precision in fine-grained retrieval. Moreover, on general image retrieval datasets, SCDA achieves comparable retrieval results with state-of-the-art general image retrieval approaches.

연구 동기 및 목표

이미지 수준 또는 바운딩 박스 애너테이션 없이도 비지도 설정에서 미세 분류 이미지 검색 문제를 해결하고자 한다.
비슷한 시각적 특징을 가진 카테고리(예: 새 종류, 자동차 모델)의 검색 정확도를 향상시키기 위해 구분력 있는 객체 영역에 집중하고자 한다.
피팅 트레이닝 없이 사전 훈련된 ImageNet 모델을 활용하는 방법을 개발하고자 한다.
선택적 디스크립터 집합이 전역 풀링 또는 인코딩 방법보다 더 의미 있는 특징을 생성함을 입증하고자 한다.

제안 방법

입력 이미지에서 깊은 컨볼루션 활성화 맵을 사전 훈련된 ImageNet CNN을 통해 추출한다.
주요 객체에 해당하는 관련 컨볼루션 디스크립터를 식별하고 선택하기 위해 비지도 객체 국소화 전략을 적용한다.
최대 풀링과 평균 풀링의 조합을 사용하여 선택된 디스크립터를 집합한다.
최종 특징 벡터의 차원을 압축하면서도 구분력은 유지하기 위해 SVD 기반 화이트닝과 차원 축소를 적용한다.
최종 SCDA 특징 벡터를 사용하여 최근접 이웃 검색을 수행한다.
특히 자원이 제한된 환경에서의 성능 향상을 위해 데이터 증강(예: 플립)을 활용한다.

실험 결과

연구 질문

RQ1사전 훈련된 CNN 모델을 피팅 트레이닝이나 애너테이션 없이도 미세 분류 이미지 검색에 효과적으로 활용할 수 있는가?
RQ2전역 풀링 또는 인코딩 방법에 비해 선택적 디스크립터 집합이 검색 성능 향상에 기여하는가?
RQ3비지도 객체 국소화가 미세 분류 검색 작업의 특징 품질을 향상시킬 수 있는가?
RQ4SCDA는 미세 분류 및 일반 목적의 이미지 검색 벤치마크에서 어떤 성능을 보이는가?
RQ5SCDA 특징이 미세 분류 카테고리를 구분하는 데 중요한 미세한 시각적 특징을 어느 정도 잘 포착하는가?

주요 결과

SCDA는 CUB200-2011, Stanford Dogs, Cars를 포함한 여섯 개인 미세 분류 데이터셋에서 최고 성능을 기록했다.
CUB200-2011 데이터셋에서 SCDA는 R-MAC 및 SPoC를 포함한 모든 베이스라인보다 뛰어난 성능을 보였으며, mAP가 88.7%에 달했다.
INRIA Holiday 및 Oxford Building 5K 데이터셋에서 SCDA는 최고 성능을 기록한 일반 이미지 검색 접근법과 유사한 성능을 달성했다.
SVD 화이트닝은 특징 차원을 감소시키고 검색 정확도를 향상시켰으며, 특히 Aircrafts 및 Cars에서 mAP 향상 폭이 최대 5.2%에 이르렀다.
시각화 결과로 SCDA 특징가 미세한 시각적 특징(예: 깃털 무늬, 자동차 차체 형태)과도 정확히 대응하는 것으로 확인되었으며, 이러한 특징은 매우 미세한 수준에서도 포착되었다.
SCDA는 계산 효율성이 뛰어나 Birds에서 약 9.1 fps, Cars에서 약 4.2 fps의 추론 속도를 기록했으며, R-MAC를 초월하고 SPoC 및 CroW와 유사한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.