[논문 리뷰] Training Vision Transformers for Image Retrieval
이 논문은 시암 변환기 아키텍처와 대조 손실 및 차등 엔트로피 정규화를 사용한 이미지 검색을 위한 비전 트랜스포머의 효과적 학습 가능성을 보여주며, 카테고리 수준에서 최첨단 결과를, 특정 객체 검색에서 강한 결과를 달성한다.
Transformers have shown outstanding results for natural language understanding and, more recently, for image classification. We here extend this work and propose a transformer-based approach for image retrieval: we adopt vision transformers for generating image descriptors and train the resulting model with a metric learning objective, which combines a contrastive loss with a differential entropy regularizer. Our results show consistent and significant improvements of transformers over convolution-based approaches. In particular, our method outperforms the state of the art on several public benchmarks for category-level retrieval, namely Stanford Online Product, In-Shop and CUB-200. Furthermore, our experiments on ROxford and RParis also show that, in comparable settings, transformers are competitive for particular object retrieval, especially in the regime of short vector representations and low-resolution images.
연구 동기 및 목표
- 단순한 비전 트랜스포머를 이미지 검색에 사용해 경쟁력 있는 정확도를 달성할 수 있음을 시연하다
- 메트릭 학습 손실과 트랜스포머 백본의 상호작용을 조사하다
- 차등 엔트로피 정규화가 임베딩 공간 활용을 개선하는지 평가하다
- SOP, CUB-200-2011, In-Shop에서 카테고리 수준 검색에 대한 최첨단 결과를 확립하다
- Oxford 및 Paris 데이터셋의 특정 객체 검색에서 성능을 평가하다
제안 방법
- 이미지 쌍을 공통 임베딩 공간으로 매핑하기 위해 시암 비전 트랜스포머(IRT) 아키텍처를 사용하다
- 교차 배치 메모리를 주요 감독 신호로 하는 대조 손실을 적용하다
- 임베딩 공간의 균일성을 촉진하기 위해 차등 엔트로피 정규화를 대조 손실에 보강하다
- 일반적으로 구입 가능한 ViT 특징으로 실험하고, 메트릭 학습으로 미세 조정하다 (IRT_O, IRT_L, IRT_R)
- 응집 기술(CLS 토큰, 평균, 최댓값, GeM) 및 차원 축소(PCA)를 탐색하여 간결한 설명자를 얻다
- 표준 검색 지표를 사용하여 SOP, CUB-200-2011, In-Shop(카테고리 수준) 및 Oxford/Paris(특정 객체)에서 학습 및 평가하다
실험 결과
연구 질문
- RQ1메트릭 학습으로 학습된 일반적인 Vision Transformer 백본이 컨볼루션 기반의 기준선과 비교하여 카테고리 수준 이미지 검색에서 경쟁력 있거나 더 우수한 성능을 달성할 수 있는가?
- RQ2대조 손실로 ViT를 미세 조정하는 것이 일반 구현 ViT 특징보다 검색 성능을 향상시키는가?
- RQ3대조 손실에 차등 엔트로피 정규화를 추가하면 임베딩 공간 활용 및 검색 정확도가 더 개선되는가?
- RQ4다양한 설명자 크기와 이미지 해상도에서 트랜스포머 기반 설명자가 특정 객체 검색에서 컨볼루션 설명자와 어떻게 비교되는가?
주요 결과
| 방법 | 백본 | 디스크립터 차원 | SOP Recall@1 | CUB Recall@1 | In-Shop Recall@1 |
|---|---|---|---|---|---|
| IRT_R (ours) | DeiT-S | 128 | 83.4 | 93.0 | 97.0 |
| IRT_R (ours) | DeiT-S | 384 | 84.0 | 93.6 | 97.2 |
- DeiT-S 백본을 사용하는 IRT_R이 SOP에서 최첨단 Recall@1을 달성하고, 이전 방법들보다 상당한 차이로 앞섰다
- CUB-200-2011에서 regularized training을 포함한 DeiT-S 384가 Recall@1에서 이전 연구를 능가
- In-Shop에서 DeiT-S 384가 이전 convnet 기반 방법들보다 우수한 Recall@1을 보인다
- 특정 객체 검색에서 DeiT-S 및 DeiT-B 변형이 224x224에서 ResNet-50/101보다 성능이 우수하고 384x384까지 잘 확장되며, FLOPS도 경쟁력 있음
- 차등 엔트로피 정규화가 벤치마크 전반의 성능을 향상시키고 일반 대조 손실에서 관찰된 특징 붕괴를 완화한다
- 트랜스포머는 특징 붕괴에 대한 강건성을 보이며 유사한 용량과 해상도에서 컨볼루션 신경망과 맞먹거나 능가할 수 있다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.