QUICK REVIEW

[论文解读] Simple Open-Vocabulary Object Detection with Vision Transformers

Matthias Minderer, Alexey A. Gritsenko|arXiv (Cornell University)|May 12, 2022

Advanced Image and Video Retrieval Techniques被引用 63

一句话总结

OWL-ViT 将图像–文本预训练的视觉变换器迁移到开放词汇对象检测，几乎无需架构改动，实现零样本、基于图像条件的一次样本（one-shot）以及文本条件检测，具有强大的扩展性。

ABSTRACT

Combining simple architectures with large-scale pre-training has led to massive improvements in image classification. For object detection, pre-training and scaling approaches are less well established, especially in the long-tailed and open-vocabulary setting, where training data is relatively scarce. In this paper, we propose a strong recipe for transferring image-text models to open-vocabulary object detection. We use a standard Vision Transformer architecture with minimal modifications, contrastive image-text pre-training, and end-to-end detection fine-tuning. Our analysis of the scaling properties of this setup shows that increasing image-level pre-training and model size yield consistent improvements on the downstream detection task. We provide the adaptation strategies and regularizations needed to attain very strong performance on zero-shot text-conditioned and one-shot image-conditioned object detection. Code and models are available on GitHub.

研究动机与目标

展示一个简单、可扩展的方案，将图像级对比学习预训练迁移到开放词汇对象检测。
证明增大模型规模和图像–文本预训练能提升下游检测性能。
在一个统一的端到端框架内实现开放词汇文本条件检测和图像条件的（一-shot）检测。

提出的方法

使用标准的 Vision Transformer 作为图像编码器，以及对应的文本变换器来获得语言嵌入。
移除最终的 token 池化；在每个图像 token 上附加轻量级的逐 token 分类和边界框头。
通过使用文本编码器生成的文本嵌入（查询）来对每个对象进行开放词汇分类；图像与文本流之间不进行融合。
使用类似 DETR 的二分配对匹配损失进行训练，针对长尾/开放词汇数据进行调整（焦点 sigmoid 交叉熵、正/负注释、伪负样本）。
在检测数据集上对图像和文本编码器进行端到端微调；查询可以是文本或图像派生，用于一次/少-shot 检测。

实验结果

研究问题

RQ1在以图像–文本对比学习进行预训练的前提下，使用一个简单的基于 ViT 的架构与最小的检测头，是否能实现强劲的开放词汇检测？
RQ2模型规模和预训练时长如何影响向检测的迁移，以及哪些架构选择能优化零样本和少样本的开放词汇性能？
RQ3是否可以在不改动架构的情况下，使用图像嵌入作为查询来支持图像条件的一次/少量样本检测？
RQ4需要哪些正则化、数据增强和数据使用策略来稳定微调并最大化开放词汇迁移？

主要发现

开放词汇检测在 LVIS 开放词汇和零样本设置中达到与最先进方法相竞争的结果，稀有类别性能强劲（例如在某些配置下 APrare 高达 23.3，使用更大尺寸的 ViT 主干时 LVIS 总体 AP 更高）。
基于文本的开放词汇检测受益于更大且预训练充分的 ViT，以及更长的图像–文本预训练；高的图像级零样本准确率与检测迁移相关，但单凭此并不足以完成。
图像条件的一次样本检测显著优于之前工作，在 COCO 分割上，使用 10 个条件查询可达 55.1 AP50，单查询设置可达 49.1–49.9 AP50。
该方法通过对来自多个查询示例的嵌入进行平均来实现图像条件的少样本检测，带来进一步的性能提升。
缩放分析表明，纯 ViT 架构在大模型上比混合架构具有更好的扩展性；更长的预训练结合更大的模型，在对象检测方面持续带来改进，超过数十亿对图像–文本对。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。