QUICK REVIEW

[논문 리뷰] Combination of Multiple Global Descriptors for Image Retrieval

HeeJae Jun, Byungsoo Ko|arXiv (Cornell University)|2019. 03. 26.

Advanced Image and Video Retrieval Techniques참고 문헌 60인용 수 43

한 줄 요약

본 논문은 CGD를 소개한다. 이는 여러 글로벌 디스크립터(SPoC, MAC, GeM)를 연결하여 결합된 이미지 표현을 생성하는 엔드-투-엔드 프레임워크로, 개별 모델을 학습시키지 않고도 여러 이미지 검색 벤치마크에서 최첨단 결과를 달성한다.

ABSTRACT

Recent studies in image retrieval task have shown that ensembling different models and combining multiple global descriptors lead to performance improvement. However, training different models for the ensemble is not only difficult but also inefficient with respect to time and memory. In this paper, we propose a novel framework that exploits multiple global descriptors to get an ensemble effect while it can be trained in an end-to-end manner. The proposed framework is flexible and expandable by the global descriptor, CNN backbone, loss, and dataset. Moreover, we investigate the effectiveness of combining multiple global descriptors with quantitative and qualitative analysis. Our extensive experiments show that the combined descriptor outperforms a single global descriptor, as it can utilize different types of feature properties. In the benchmark evaluation, the proposed framework achieves the state-of-the-art performance on the CARS196, CUB200-2011, In-shop Clothes, and Stanford Online Products on image retrieval tasks. Our model implementations and pretrained models are publicly available.

연구 동기 및 목표

다수의 독립적인 모델을 학습시키지 않고도 이미지 검색에서 앙상블과 같은 이득을 얻고 이를 가능하게 한다.
한 개의 백본 내에서 다양한 글로벌 디스크립터를 결합하여 상호 보완적인 특성을 활용한다.
여러 백본, 디스크립터, 손실 함수 및 데이터셋에 적응 가능한 엔드-투-엔드 학습 가능 프레임워크를 제공한다.
단일 디스크립터 기반 기준선 대비 성능 향상을 실증하고 주요 벤치마크에서 최첨단 결과를 달성함을 실험적으로 시연한다.

제안 방법

마지막 특징 맵을 생성하기 위해 CNN 백본을 사용한다(예: 다운샘플링을 줄인 ResNet-50 등).
마지막 컨볼루션 기능 맵에 서로 다른 글로벌 풀링 디스크립터(SPoC, MAC, GeM)를 적용하는 여러 가지 분기를 생성한다.
각 분기는 완전 연결 계층과 l2 정규화 후 k차원 임베딩을 출력한다.
분기 임베딩을 연결하여 l2 정규화된 최종 CGD를 형성하고 순위 손실로 학습한다.
보조 모듈은 임베딩 분리 가능성을 높이기 위해 첫 번째 디스크립터에 분류 손실을 적용하며, 온도 스케일링과 라벨 스무딩을 사용한다.
주 모듈의 순위 손실과 보조 분류 손실을 합친 손실로 엔드-투-엔드로 학습한다.

실험 결과

연구 질문

RQ1명시적 다양성 제어 없이도 단일 엔드투엔드 학습 가능한 프레임워크에서 여러 글로벌 디스크립터를 결합하여 앙상블과 같은 이점을 실현할 수 있는가?
RQ2SPoC, MAC, GeM이 결합될 때 상호 보완적 특성을 제공하여 이미지 검색 성능을 향상시키는가?
RQ3표준 데이터셋에서 최상의 성능을 내는 구성은 어떤 디스크립터를 어떤 순서로 사용하고 어떻게 결합하는가?
RQ4CGD 프레임워크가 서로 다른 CNN 백본과 순위 손실에 대해 충분히 유연한가?

주요 결과

CGD 프레임워크는 데이터셋 전반에서 단일 디스크립터 기준선보다 일관되게 우수하게 나타난다(CUB200-2011, CARS196, SOP, In-shop Clothes).
여러 디스크립터를 연결하면 각자의 특성을 보존하고 합산보다 더 나은 결과를 얻는다.
온도 스케일링과 라벨 스무딩이 적용된 보조 분류 손실은 수렴 및 임베딩 품질을 향상시킨다.
최상의 구성은 종종 최고 성능의 단일 디스크립터들과 두 번째로 높은 디스크립터를 결합하는 것이고(e.g., MG/SG), 데이터셋 전반에 걸쳐 강한 이점을 달성한다.
엔드-투-엔드 학습을 사용하는 CGD는 단일 백본과 제한된 추가 매개변수를 필요로 하여 전통적인 다-학습자 앙상블에 비해 효율성 이점을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.