Skip to main content
QUICK REVIEW

[论文解读] Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

Xiuye Gu, Tsung-Yi Lin|arXiv (Cornell University)|Apr 28, 2021
Multimodal Machine Learning Applications参考文献 39被引用 280
一句话总结

ViLD 将来自开放词汇图像分类器的知识蒸馏到一个两阶段检测器中,以实现开放词汇目标检测,在新类别的精确度和跨数据集的迁移能力方面表现出色。

ABSTRACT

We aim at advancing open-vocabulary object detection, which detects objects described by arbitrary text inputs. The fundamental challenge is the availability of training data. It is costly to further scale up the number of classes contained in existing object detection datasets. To overcome this challenge, we propose ViLD, a training method via Vision and Language knowledge Distillation. Our method distills the knowledge from a pretrained open-vocabulary image classification model (teacher) into a two-stage detector (student). Specifically, we use the teacher model to encode category texts and image regions of object proposals. Then we train a student detector, whose region embeddings of detected boxes are aligned with the text and image embeddings inferred by the teacher. We benchmark on LVIS by holding out all rare categories as novel categories that are not seen during training. ViLD obtains 16.1 mask AP$_r$ with a ResNet-50 backbone, even outperforming the supervised counterpart by 3.8. When trained with a stronger teacher model ALIGN, ViLD achieves 26.3 AP$_r$. The model can directly transfer to other datasets without finetuning, achieving 72.2 AP$_{50}$ on PASCAL VOC, 36.6 AP on COCO and 11.8 AP on Objects365. On COCO, ViLD outperforms the previous state-of-the-art by 4.8 on novel AP and 11.4 on overall AP. Code and demo are open-sourced at https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild.

研究动机与目标

  • 解决在没有大量新类别检测注释的情况下,对由任意文本输入描述的对象进行检测的挑战。
  • 利用预训练的开放词汇图像分类器作为教师来监督一个两阶段检测器。
  • 开发 ViLD 组件(ViLD-text 和 ViLD-image),使区域嵌入与文本嵌入和图像嵌入对齐。
  • 在 LVIS 上展示开放词汇检测性能并将其迁移到其他检测数据集。

提出的方法

  • 在两阶段检测器中用来自预训练开放词汇模型的文本嵌入替代标准分类器,以形成 ViLD-text。
  • 使用 L1 损失将来自预训练图像编码器的图像嵌入蒸馏为 Mask R-CNN 的区域嵌入,以形成 ViLD-image。
  • 通过联合训练目标 L_ViLD = L_ViLD-text + w * L_ViLD-image,将 ViLD-text 和 ViLD-image 结合起来。
  • 推理时,对基础类别和新颖类别使用相同的文本嵌入,以实现开放词汇检测(C_B ∪ C_N)。
  • 可选地应用模型集成(ViLD-ensemble 或 ViLD-text+CLIP)以提升基础/新颖类别的性能。
  • 展示使用不同教师模型(CLIP、ALIGN)的蒸馏及在无需微调的情况下的迁移能力。

实验结果

研究问题

  • RQ1是否能通过来自开放词汇图像分类器的知识蒸馏实现有效的开放词汇目标检测?
  • RQ2文本基与图像基蒸馏信号如何互补以实现对新颖类别的检测?
  • RQ3更强的教师模型(如 ALIGN)对开放词汇检测性能有何影响?
  • RQ4经过 ViLD 训练的检测器在无需微调的情况下迁移到其他检测数据集的效果如何?

主要发现

  • ViLD 在 LVIS 上以 ResNet-50 主干实现 16.1 的新颖类别 AP(AP_r),比受监督的对应方法高出 3.8 AP_r。
  • 使用更强的教师模型 ALIGN 在 LVIS 上的新颖类别达到 26.3 AP_r。
  • ViLD 无需微调即可直接迁移到 PASCAL VOC(72.2 AP50)、COCO(36.6 AP)和 Objects365(11.8 AP)。
  • ViLD 在 COCO 上的表现比先前的开放词汇检测器高出 4.8 AP_r 和 11.4 AP 总体。
  • ViLD-text(使用 CLIP 文本嵌入)在新颖类别 AP_r 上显著优于 GloVe(10.1 对 3.0)。
  • ViLD 通过结合文本蒸馏和图像蒸馏(ViLD-text + ViLD-image)来提升新颖类别性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。