[论文解读] F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models
F-VLM 构建一个基于冻结的 vision-language 模型的开放词汇检测器,只训练检测器头,在推理时将检测器与 VLM 输出融合,达到在 LVIS 上的最先进结果,同时显著提升训练速度。
We present F-VLM, a simple open-vocabulary object detection method built upon Frozen Vision and Language Models. F-VLM simplifies the current multi-stage training pipeline by eliminating the need for knowledge distillation or detection-tailored pretraining. Surprisingly, we observe that a frozen VLM: 1) retains the locality-sensitive features necessary for detection, and 2) is a strong region classifier. We finetune only the detector head and combine the detector and VLM outputs for each region at inference time. F-VLM shows compelling scaling behavior and achieves +6.5 mask AP improvement over the previous state of the art on novel categories of LVIS open-vocabulary detection benchmark. In addition, we demonstrate very competitive results on COCO open-vocabulary detection benchmark and cross-dataset transfer detection, in addition to significant training speed-up and compute savings. Code will be released at the https://sites.google.com/view/f-vlm/home
研究动机与目标
- 在不进行蒸馏、不进行针对检测的预训练、也不依赖弱监督的情况下实现开放词汇目标检测。
- 利用冻结的 VLM 特征,保留局部性并提供区域级分类能力。
- 展示强劲的 LVIS 开放词汇性能以及在跨数据集迁移上的竞争力(COCO、Objects365),并实现显著的训练效率提升。
- 展示随骨干网络容量扩展的可扩展性,并提供实用的训练/资源节省与迁移能力。
提出的方法
- 将检测头附加到冻结的 VLM 主干上(Mask R-CNN 与 FPN),并用基础类别文本嵌入替代最终分类器。
- 使用 VLM 池化层在测试时获取区域级嵌入用于开放词汇识别,并与文本嵌入计算余弦相似度。
- 通过以几何平均的组合方式融合每个区域的检测器分数和 VLM 分数,并针对基础类别与新词类别设定按词汇类别的权重。
- 应用类别无关的框回归和掩码预测头,以在开放词汇设定下实现新对象的定位。
- 仅训练检测头,同时保留冻结的 VLM 主干,并在推理时组合检测器和 VLM 的预测以获得最终的 Open-Vocabulary 分数。
实验结果
研究问题
- RQ1冻结的 Vision-Language 模型主干是否能在不进行知识蒸馏或针对检测的预训练的情况下支持开放词汇目标检测?
- RQ2融合集成检测器输出与基于 VLM 的区域分类以实现开放词汇检测的最佳策略是什么?
- RQ3增强主干容量如何影响开放词汇检测性能和训练效率?
- RQ4在不对新词汇进行微调的情况下,该方法如何迁移到其他数据集(COCO、Objects365)?
主要发现
- 在 LVIS 上,F-VLM 在系统层面超越了先前的开放词汇检测的最先进水平,提升 6.5 的 mask AP_r。
- 性能随主干容量增加,在 LVIS 的最大主干上达到 +14.2 AP_r。
- 训练计算节省显著(在可比基线下比 ViLD 快 226×)。
- 在 COCO 上,F-VLM 具有竞争力,在 Objects365 的迁移设定中也超越了若干基线;相对于 ViLD 的增益包括在 COCO 上 +3.2 AP,在 Objects365 上 +5.9 AP,在某些比较中还比 DetPro 高出 +4.9/+5.6。
- F-VLM 在 LVIS 上训练后对 COCO/Objects365 进行评估且不进行微调时,实现强的跨数据集泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。