[논문 리뷰] Unicom: Universal and Compact Representation Learning for Image Retrieval
Unicom은 CLIP의 이미지-텍스트 피처를 LAION-400M에서 클러스터링하고 충돌-강건한 임의 음수 프로토타입 선택과 임의 특징 선택을 적용하여 무감독 및 감독 이미지 검색 모두를 개선하는 보편적이고 간결한 이미지 표현을 학습합니다.
Modern image retrieval methods typically rely on fine-tuning pre-trained encoders to extract image-level descriptors. However, the most widely used models are pre-trained on ImageNet-1K with limited classes. The pre-trained feature representation is therefore not universal enough to generalize well to the diverse open-world classes. In this paper, we first cluster the large-scale LAION400M into one million pseudo classes based on the joint textual and visual features extracted by the CLIP model. Due to the confusion of label granularity, the automatically clustered dataset inevitably contains heavy inter-class conflict. To alleviate such conflict, we randomly select partial inter-class prototypes to construct the margin-based softmax loss. To further enhance the low-dimensional feature representation, we randomly select partial feature dimensions when calculating the similarities between embeddings and class-wise prototypes. The dual random partial selections are with respect to the class dimension and the feature dimension of the prototype matrix, making the classification conflict-robust and the feature embedding compact. Our method significantly outperforms state-of-the-art unsupervised and supervised image retrieval approaches on multiple benchmarks. The code and pre-trained models are released to facilitate future research https://github.com/deepglint/unicom.
연구 동기 및 목표
- 오픈월드 검색을 위한 ImageNet-사전학습 특징의 일반화 한계에 대응한다.
- 대규모 비라벨 데이터 코퍼스에서 이미지+텍스트 모달리티를 활용한 클러스터링으로 의사 클래스(pseudo-classes)를 형성한다.
- 클래스 간 충돌을 처리하기 위해 임의 음수 프로토타입 선택을 포함한 견고한 구분 objective를 설계한다.
- 검색 효율을 높이기 위해 임의 특징 선택에 의해 특징 압축성을 촉진한다.
제안 방법
- LAION-400M의 이미지-텍스트 특징을 혼합한 오프라인 k-평균으로 이미지와 CLIP 텍스트 특징을 1M개의 의사 클래스로 클러스터링한다.
- 반복마다 음수 프로토타입의 부분집합(클래스 차원)을 임의로 선택하여 충돌-강건한 여백 기반 소프트맥스를 학습한다.
- 손실 계산 중 임의로 특징 차원의 부분공간(공유된 Gamma_t 마스크)을 임베딩과 프로토타입 모두에서 선택하여 특징 압축성을 강제한다.
- 전체 프로토타입 행렬을 유지하되 매 이터레이션마다 클래스와 특징의 임의 부분집합만 업데이트하여 클래스 간 충돌을 줄이고 압축성을 촉진한다.
- 사전 학습과 검색 작업 모두에 ArcFace 스타일의 여백 기반 소프트맥스(margin=0.3, scale=64)를 사용한다.
- 클러스터링에서 프토토타입을 형성하기 위해 이미지와 텍스트 특징을(평균 융합)으로 결합하는 것을 선택적으로 사용한다.
실험 결과
연구 질문
- RQ1임의 음수 프로토타입 선택을 통한 군집 구분이 CLIP 기반 시스템에서 인스턴스 구분보다 보편적 표현 학습을 향상시키는가?
- RQ2구분 과정의 임의 특징 선택이 정확도를 희생하지 않으면서 검색에 대해 간결하고 경쟁력 있는 임베딩을 생성할 수 있는가?
- RQ3클러스터 수(k)와 클러스터링 모달리티의 선택(이미지, 텍스트, 또는 결합)이 검색 성능에 어떤 영향을 미치는가?
- RQ4제안된 방법이 무감독 및 감독 이미지 검색은 물론 전이 학습(예: ImageNet-1K)에도 일반화되는가?
주요 결과
- 13개 데이터셋에서의 선형 탐색은 제안된 군집 구분이 동일 데이터로 CLIP 및 OPEN-CLIP을 능가함을 보여주며, 평균 이득은 3.6%(ViT B/32), 2.7%(ViT B/16), 1.4%(ViT L/14)이다.
- ViT L/14를 사용한 무감독 이미지 검색은 7개 데이터셋에서 평균 mAP 69.9%를 달성하여 OPEN-CLIP보다 7.5%, 더 큰 OPEN-CLIP 모델보다 5.4% 높다.
- ImageNet-1K 전이 학습은 경쟁력 있는 Top-1 정확도를 보이며, 예를 들어 ViT B/16 Ours는 85.9%, ViT L/14 Ours는 88.3%의 Top-1에 도달한다(LAION-400M으로 사전 학습시).
- 이전 방법들과 비교하여 이미지+텍스트 결합 클러스터링 및 임의 선택 전략을 갖춘 Unicom은 다양한 데이터셋(CUB, Cars, SOP, In-Shop, INaturalist, VehicleID, GLDv2)에서 선형 프로브와 검색 벤치마크를 일관되게 향상시킨다.
- 무효화 연구는 강력한 성능과 특징 압축성을 달성하기 위한 임의 음수 클래스 샘플링(r1 ≈ 0.1)과 임의 특징 샘플링(r2 ≈ 0.5)의 중요성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.