[논문 리뷰] Simple Open-Vocabulary Object Detection with Vision Transformers
OWL-ViT는 이미지-텍스트 사전학습 비전 트랜스포머를 최소한의 아키텍처 변경으로 개방-어휘 객체 탐지로 이전시키며, 제로샷, 원샷(이미지 조건화), 텍스트 조건화 탐지를 강력한 스케일링 행동과 함께 가능하게 한다.
Combining simple architectures with large-scale pre-training has led to massive improvements in image classification. For object detection, pre-training and scaling approaches are less well established, especially in the long-tailed and open-vocabulary setting, where training data is relatively scarce. In this paper, we propose a strong recipe for transferring image-text models to open-vocabulary object detection. We use a standard Vision Transformer architecture with minimal modifications, contrastive image-text pre-training, and end-to-end detection fine-tuning. Our analysis of the scaling properties of this setup shows that increasing image-level pre-training and model size yield consistent improvements on the downstream detection task. We provide the adaptation strategies and regularizations needed to attain very strong performance on zero-shot text-conditioned and one-shot image-conditioned object detection. Code and models are available on GitHub.
연구 동기 및 목표
- 이미지 레벨 대조 학습을 개방-어휘 객체 탐지로 이전시키는 간단하고 확장 가능한 방법을 시연한다.
- 모델 크기와 이미지-텍스트 사전학습을 늘리면 다운스트림 탐지 성능이 향상됨을 보인다.
- 통합된 엔드-투-엔드 프레임워크 내에서 개방-어휘 텍스트-조건화 및 이미지-조건화(원샷) 탐지를 가능하게 한다.
제안 방법
- 이미지 인코더로 표준 Vision Transformer를 사용하고 언어 임베딩을 위한 대응되는 텍스트 트랜스포머를 사용한다.
- 마지막 토큰 풀링을 제거하고 각 이미지 토큰에 가벼운 토큰당 분류 및 바운딩 박스 헤드를 연결한다.
- 각 객체에 대해 텍스트 인코더로부터 얻은 텍스트 유래 임베딩(쿼리)을 사용하여 개방-어휘 분류를 가능하게 한다; 이미지 및 텍스트 스트림 간의 융합은 없다.
- 롱테일/개방-어휘 데이터에 맞게 DETR 유사 이분매칭 손실로 학습한다(포컬 시그모이드 크로스엔트로피, 양성/음성 주석, 의사 음수).
- 탐지 데이터셋에서 이미지 및 텍스트 인코더를 엔드-투-엔드로 미세조정한다; 쿼리는 텍스트 또는 이미지에서 파생될 수 있어 원샷/소샷 탐지가 가능하다.
실험 결과
연구 질문
- RQ1이미지-텍스트 대조 학습으로 사전 학습되었을 때 간단한 ViT 기반 아키텍처와 최소한의 탐지 헤드가 강력한 개방-어휘 탐지를 달성할 수 있는가?
- RQ2모델 크기와 사전 학습 지속 기간이 탐지로의 전이성에 어떤 영향을 주며, 제로샷 및 소샷 개방-어휘 성능을 최적화하는 아키텍처 선택은 무엇인가?
- RQ3아키텍처 변경 없이 이미지 임베딩을 쿼리로 사용하여 이미지-조건화 원샷/소샷 탐지를 지원할 수 있는가?
- RQ4미세조정을 안정화하고 개방-어휘 전이를 극대화하기 위해 필요한 정규화, 데이터 증강, 데이터 사용 전략은 무엇인가?
주요 결과
- 개방-어휘 탐지는 LVIS 개방-어휘 및 제로샷 설정에서 최첨단과 경쟁력 있는 성능을 달성하며 희귀 카테고리에서도 강력한 성능을 나타낸다(예: 특정 구성에서 APrare가 23.3까지, 더 큰 ViT 백본 사용 시 전반 LVIS AP가 더 높아짐).
- 텍스트 기반 개방-어휘 탐지는 더 크고 잘 사전학습된 ViT와 더 긴 이미지-텍스트 사전학습의 이점이 있으며, 이미지 수준 제로샷 정확도가 탐지 전이와 상관되지만 혼자서는 충분하지 않다.
- 이미지-조건화 원샷 탐지는 이전 연구보다 상당히 우수하며, 10개의 조건 쿼리로 최대 55.1 AP50, 단일 쿼리 설정에서 COCO 분할에서 49.1–49.9 AP50 달성한다.
- 이 방법은 여러 쿼리 예시로부터 임베딩을 평균화하여 이미지-조건화 소샷 탐지를 지원하고 성능 향상을 더 얻는다.
- 스케일링 분석은 순수 ViT 아키텍처가 대형 모델에서 하이브리드보다 더 잘 확장되며, 더 긴 사전학습과 더 큰 모델이 수십억 개의 이미지-텍스트 쌍을 넘어서도 물체 탐지 성능을 지속적으로 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.