[论文解读] YOLO-World: Real-Time Open-Vocabulary Object Detection
YOLO-World 在 YOLO 的基础上通过整合可开放词汇检测的 Re-parameterizable Vision-Language Path Aggregation Network 和区域文本对比预训练,实现对 LVIS 的实时零样本检测以及对下游任务的强大性能。
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
研究动机与目标
- 在实时场景中推动超越固定词汇的开放词汇对象检测。
- 提出 RepVL-PAN,以高效地融合视觉与语言特征用于开放词汇检测。
- 开发区域文本对比预训练方案以扩展开放词汇能力。
- 通过重新参数化实现边缘端推理的离线词汇部署。
- 在下游任务(如开放词汇实例分割)中展示强零样本性能与迁移能力。
提出的方法
- 以 YOLOv8 为视觉骨干的检测器。
- 结合基于 CLIP 的文本编码器将输入文本编码为文本嵌入。
- 引入 RepVL-PAN 实现图像特征与文本嵌入的跨模态融合,且具 Text-guided CSPLayer 与 Image-Pooling Attention。
- 以区域-文本对为基础的对比学习预训练,利用检测、定位与图像文本数据得到区域文本对;使用伪标注扩充区域文本对。
- 采用提示-先检测的离线词汇推理范式以提升推理效率;将文本嵌入重参数化为模型权重以便部署。
- 对下游任务(目标检测、开放词汇实例分割)进行有选择的微调,并评估零样本与微调性能。
实验结果
研究问题
- RQ1轻量级检测器(YOLO 家族)在实时开放词汇检测方面是否能与更重的开放词汇模型相比拟?
- RQ2通过 RepVL-PAN 的视觉-语言预训练是否提升对大规模多样词汇(如 LVIS 1203 类别)的零样本泛化?
- RQ3在大规模的检测、定位与图像文本数据训练下,区域文本对比学习在开放词汇方面是否有效?
- RQ4使用离线词汇表与提示-先检测策略是否能在保持高速度的同时保留开放词汇能力?
- RQ5在下游任务(COCO、LVIS)上的微调如何与预训练的开放词汇表示交互?
主要发现
- YOLO-World-L 在 LVIS 的零样本评估中达到 35.0 AP、52.0 FPS(在 V100 上),超越了若干最先进的开放词汇检测器。
- 用 Objects365、GoldG 与 CC3M 进行预训练(通过伪标注)提升 LVIS 零样本 AP;数据规模更大、更多样的数据带来更高的增益,尤其对稀有类别。
- 配备 Text-guided CSPLayer 与 Image Pooling Attention 的 RepVL-PAN 将 LVIS 零样本 AP 在 YOLOv8-PAN 基线上提升约 1.1 AP,对稀有类别的增益更大。
- 基于 CLIP 的文本编码器在开放词汇检测中优于基于 BERT 的编码器;在预训练阶段冻结 CLIP 通常带来比微调更好的 LVIS 零样本结果。
- 在微调阶段,YOLO-World 变体在 COCO 与 LVIS 上表现出强劲性能,且基于 LVIS 的微调显著提升 LVIS 的 AP 与 APr,同时保持可观的开放词汇行为。
- 模型支持通过有选择的微调实现开放词汇实例分割,在对分割头进行微调时仍能保留零样本能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。