Skip to main content
QUICK REVIEW

[论文解读] Three ways to improve feature alignment for open vocabulary detection

Relja Arandjelović, Alex Andonian|arXiv (Cornell University)|Mar 23, 2023
Multimodal Machine Learning Applications被引用 9
一句话总结

本文介绍了三种方法,以提升视觉–语言特征对齐,以实现零-shot 开放词汇检测: (1) 高效文本增强以增强文本嵌入;(2) 具有可训练门控捷径的对齐保持型架构;以及 (3) 使用大型图文数据集进行自训练的批次负样本;它们共同实现了 state-of-the-art LVIS-R mAPall 并在 mAPrare 上具有竞争力。

ABSTRACT

The core problem in zero-shot open vocabulary detection is how to align visual and text features, so that the detector performs well on unseen classes. Previous approaches train the feature pyramid and detection head from scratch, which breaks the vision-text feature alignment established during pretraining, and struggles to prevent the language model from forgetting unseen classes. We propose three methods to alleviate these issues. Firstly, a simple scheme is used to augment the text embeddings which prevents overfitting to a small number of classes seen during training, while simultaneously saving memory and computation. Secondly, the feature pyramid network and the detection head are modified to include trainable gated shortcuts, which encourages vision-text feature alignment and guarantees it at the start of detection training. Finally, a self-training approach is used to leverage a larger corpus of image-text pairs thus improving detection performance on classes with no human annotated bounding boxes. Our three methods are evaluated on the zero-shot version of the LVIS benchmark, each of them showing clear and significant benefits. Our final network achieves the new stateof-the-art on the mAP-all metric and demonstrates competitive performance for mAP-rare, as well as superior transfer to COCO and Objects365.

研究动机与目标

  • 提高视觉特征与文本特征之间的对齐,以支持零-shot 开放词汇检测。
  • 减轻检测器训练期间对未见类别的遗忘。
  • 在处理大型语言模型嵌入时,提高训练效率并降低内存使用。
  • 通过自训练利用大型图文数据提升未见类别的性能。

提出的方法

  • 通过 64 个变体或多模板来增强语言模型推导的文本嵌入,防止过拟合并降低内存使用。
  • 引入对齐保持架构,具备门控捷径,在初始化时将最终骨干特征传播至检测头以保持对齐。
  • 使用 CC12M 标注的批次负样本进行自训练,对图像进行伪标签,并训练一个更强的开放词汇检测器(3Ways),将 LVIS-R 与伪标签数据结合。

实验结果

研究问题

  • RQ1如何通过扩充文本嵌入来防止对训练类别的过拟合,同时不产生过多的内存或计算开销?
  • RQ2架构变更能否在检测器训练刚开始就保持或提升视觉–文本对齐?
  • RQ3使用来自大型图文数据集的伪标签进行自训练是否能提升零-shot 开放词汇检测中未见类别的检测?

主要发现

  • 具有 dropout 的文本增强和64个嵌入变体(或多模板)显著提升未见类别的 mAP 并降低内存使用。
  • 对齐保持架构在不同骨干网和检测头上稳定提升 mAP,尤其提升 mAPrare。
  • 使用批次负样本进行自训练(3Ways)在 mAPall 和 mAPrare 上均有显著提升,尤其是未见类别。
  • NFNet-F6 骨干网搭配 3Ways 实现 44.6 mAPall 和 30.1 mAPrare,显著超过以往方法。
  • 在 LVIS-R 转移上,该方法对 COCO 和 Objects365 展现出强劲性能,显示出良好的泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。