[论文解读] Query-Adaptive R-CNN for Open-Vocabulary Object Detection and Retrieval.
该论文提出了一种名为Query-Adaptive R-CNN的新端到端框架,通过从文本查询生成检测器权重,将Faster R-CNN扩展至开放词汇物体检测。该方法在Flickr30k Entities数据集上实现了最先进性能,并利用查询自适应分类和负短语增强技术,实现了在一百万张图像中0.5秒内完成物体检索与定位。
We address the problem of open-vocabulary object retrieval and localization, which is to retrieve and localize objects from a very large-scale image database immediately by a textual query (e.g., a word or phrase). We first propose Query-Adaptive R-CNN, a simple yet strong framework for open-vocabulary object detection. Query-Adaptive R-CNN is a simple extension of Faster R-CNN from closed-vocabulary to open-vocabulary object detection: instead of learning a class-specific classifier and regressor, we learn a detector generator that transforms a text into classifier and regressor weights. All of its components can be learned in an end-to-end manner. Even with its simple architecture, it outperforms all state-of-the-art methods in the Flickr30k Entities phrase localization task. In addition, we propose negative phrase augmentation, a generic approach for exploiting hard negatives in the training of open-vocabulary object detection that significantly improves the discriminative ability of the generated classifier. We show that our system can retrieve and localize objects specified by a textual query from one million images in only 0.5 seconds.
研究动机与目标
- 通过自然语言查询在大规模图像数据库中实现开放词汇物体检测与检索。
- 解决物体检测在固定封闭类别集之外的泛化挑战,实现对未见文本查询的动态适应。
- 通过训练期间有效的困难负样本挖掘,提升开放词汇设置下的模型判别能力。
- 实现实时检索与定位大规模图像集合的快速端到端推理。
提出的方法
- Query-Adaptive R-CNN用一个检测器生成器替代Faster R-CNN中的类别特定分类器和回归器,该生成器从文本查询生成分类器和回归器权重。
- 检测器生成器端到端训练,实现视觉与文本表示的联合优化,以实现查询特定的检测。
- 引入负短语增强作为数据增强策略,在训练期间显式建模困难负短语,提升分类器泛化能力。
- 该框架利用预训练的视觉与文本编码器,将图像和查询嵌入到共享嵌入空间以实现对齐。
- 系统使用区域建议网络(RPN)生成候选物体提议,随后使用查询生成的权重对这些提议进行评分。
- 推理过程高度高效,可在0.5秒内完成对一百万张图像的检索与定位。
实验结果
研究问题
- RQ1一个简单、端到端的框架能否在无需为每个新类别重新训练的情况下,将物体检测适应于开放词汇查询?
- RQ2检测器生成器从自然语言查询中生成准确分类器与回归器权重的能力有多强?
- RQ3负短语增强在开放词汇检测中对提升判别能力的改善程度如何?
- RQ4该系统在大规模图像数据库上的推理速度与可扩展性如何?
主要发现
- Query-Adaptive R-CNN在Flickr30k Entities短语定位基准上实现了最先进性能,优于所有先前方法。
- 该模型仅用0.5秒即可从一百万张图像中检索并定位物体,展现出极高的推理效率。
- 负短语增强显著提升了分类器的判别能力,尤其在模糊或罕见短语上表现更优。
- 端到端可训练的检测器生成器无需微调即可对未见查询实现强大泛化能力。
- 即使在面对多样化且复杂的文本查询的开放词汇挑战条件下,该框架仍保持高精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。