[논문 리뷰] YOLO-World: Real-Time Open-Vocabulary Object Detection
YOLO-World는 재매개화 가능한 비전-언어 경로 집계 네트워크와 영역-텍스트 대비 사전 학습을 통합하여 고정 어휘를 넘어서는 오픈 어휘 탐지(Open-vocabulary detection)를 가능하게 하는 YOLO 확장으로, LVIS에서 실시간 제로샷 탐지와 강력한 다운스트림 태스크 성능을 달성합니다.
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
연구 동기 및 목표
- 실시간 시나리오에서 고정된 어휘를 넘어서는 오픈 어휘 물체 탐지를 고무한다.
- 오픈 어휘 탐지를 위해 비전과 언어 특징을 효율적으로 융합하는 RepVL-PAN을 제안한다.
- 오픈 어휘 능력을 확장하기 위한 영역-텍스트 대비 사전 학습 체계를 개발한다.
- 에지 친화적 추론을 위해 재매개화를 통한 오프라인 어휘 배치를 가능하게 한다.
- 제로샷 성능과 오픈 어휘 인스턴스 세분화와 같은 다운스트림 작업으로의 전이 가능성을 보여준다.]
- method:[
- 시각적 백본으로 YOLOv8 기반 탐지기를 사용한다.
- 입력 텍스트를 텍스트 임베딩으로 인코딩하기 위해 CLIP 기반 텍스트 인코더를 도입한다.
- Text-guided CSPLayer와 Image-Pooling Attention으로 이미지 특징과 텍스트 임베딩 간의 교차 모달 융합을 가능하게 하는 RepVL-PAN을 도입한다.
- 감지, 그라운딩 및 이미지-텍스트 데이터에서 파생된 영역-텍스트 쌍에 대한 영역-텍스트 대비 손실로 사전 학습을 구성하고, 의사 라벨링을 사용해 이미지-텍스트 영역-텍 쌍을 확장한다.
- 추론 효율성을 높이기 위해 오프라인 어휘를 갖춘 프롬프트-선 탐지 추론 패러다임을 채택하고, 배포를 위해 텍스트 임베딩을 모델 가중치로 재매개화한다.
- 다운스트림 작업(객체 탐지, 오픈 어휘 인스턴스 세분화)용으로 선택적으로 미세조정하고 제로샷 및 미세조정 성능을 평가한다.
제안 방법
- Use a YOLOv8-based detector as the visual backbone.
- Incorporate a CLIP-based text encoder to encode input texts into text embeddings.
- Introduce RepVL-PAN to enable cross-modality fusion between image features and text embeddings with Text-guided CSPLayer and Image-Pooling Attention.
- Formulate pre-training with region-text contrastive loss on region-text pairs derived from detection, grounding, and image-text data; use pseudo labeling to enlarge image-text region-text pairs.
- Adopt a prompt-then-detect inference paradigm with offline vocabulary to improve inference efficiency; re-parameterize text embeddings into model weights for deployment.
- Fine-tune selectively for downstream tasks (object detection, open-vocabulary instance segmentation) and evaluate zero-shot and fine-tuned performance.
실험 결과
연구 질문
- RQ1가벼운 탐지기(YOLO 계열)가 무거운 오픈 어휘 모델과 견줄 만한 실시간 오픈 어휘 탐지를 달성할 수 있는가?
- RQ2RepVL-PAN을 통한 비전-언어 사전학습의 통합이 대규모의 다양하고 다양한 어휘(예: LVIS 1203 카테고리)에 대한 제로샷 일반화를 개선하는가?
- RQ3감지, 그라운딩 및 이미지-텍스트 데이터로 대규모 학습 시 영역-텍스트 대비 학습이 오픈 어휘에 대해 효과적인가?
- RQ4프롬프트-선 탐지 전략과 함께하는 오프라인 어휘가 높은 속도를 유지하면서 오픈 어휘 능력을 보존할 수 있는가?
- RQ5다운스트림 작업(COCO, LVIS)에 대한 미세조정이 사전 학습된 오픈 어휘 표현과 어떠한 상호작용을 보이는가?
주요 결과
- YOLO-World-L은 LVIS에서 제로샷 평가 시 35.0 AP를 달성하고 V100에서 52.0 FPS를 기록, 다수의 최첨단 오픈 어휘 탐지기들을 능가한다.
- Objects365, GoldG, CC3M으로의 사전 학습(의사 라벨링을 통한)은 LVIS 제로샷 AP를 향상시키며, 더 크고 다양한 데이터일수록 특히 희귀 카테고리에서 더 큰 이득을 준다.
- Text-guided CSPLayer와 Image Pooling Attention을 갖춘 RepVL-PAN은 YOLOv8-PAN 베이스라인보다 LVIS 제로샷 AP를 약 1.1만큼 향상시키고, 희귀 카테고리에선 더 큰 이득을 준다.
- CLIP 기반 텍스트 인코더가 오픈 어휘 탐지에 대해 BERT 기반 인코더를 능가하며, 사전 학습 중 CLIP을 동결하는 것이 일반적으로 파인튜닝보다 LVIS 제로샷 결과를 더 좋게 만든다.
- 미세조정에서 YOLO-World 변형은 COCO와 LVIS에서 강력한 성능을 보여주고, LVIS 기반 미세조정은 LVIS AP 및 APr을 크게 향상시키며 오픈 어휘 동작도 유지한다.
- 모델은 선택적 미세조정으로 오픈 어휘 인스턴스 분할을 지원하며, 분할 헤드를 미세조정할 때 제로샷 능력을 보존한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.