Skip to main content
QUICK REVIEW

[论文解读] Zero-Shot Detection via Vision and Language Knowledge Distillation.

Xiuye Gu, Tsung-Yi Lin|arXiv (Cornell University)|Apr 28, 2021
Domain Adaptation and Few-Shot Learning被引用 29
一句话总结

本文提出ViLD,一种视觉-语言知识蒸馏方法,将CLIP等模型的零样本图像分类能力迁移至两阶段目标检测器,通过将区域嵌入与图像和文本嵌入对齐,实现零样本目标检测。在LVIS数据集上,ViLD实现了16.1 mask AP$_r$的性能,比监督基线模型高出3.8个百分点,并在PASCAL VOC、COCO和Objects365上展现出优异的泛化能力。

ABSTRACT

Zero-shot image classification has made promising progress by training the aligned image and text encoders. The goal of this work is to advance zero-shot object detection, which aims to detect novel objects without bounding box nor mask annotations. We propose ViLD, a training method via Vision and Language knowledge Distillation. We distill the knowledge from a pre-trained zero-shot image classification model (e.g., CLIP) into a two-stage detector (e.g., Mask R-CNN). Our method aligns the region embeddings in the detector to the text and image embeddings inferred by the pre-trained model. We use the text embeddings as the detection classifier, obtained by feeding category names into the pre-trained text encoder. We then minimize the distance between the region embeddings and image embeddings, obtained by feeding region proposals into the pre-trained image encoder. During inference, we include text embeddings of novel categories into the detection classifier for zero-shot detection. We benchmark the performance on LVIS dataset by holding out all rare categories as novel categories. ViLD obtains 16.1 mask AP$_r$ with a Mask R-CNN (ResNet-50 FPN) for zero-shot detection, outperforming the supervised counterpart by 3.8. The model can directly transfer to other datasets, achieving 72.2 AP$_{50}$, 36.6 AP and 11.8 AP on PASCAL VOC, COCO and Objects365, respectively.

研究动机与目标

  • 通过在无边界框或掩码标注的情况下检测新类别,推动零样本目标检测的发展。
  • 利用预训练的视觉-语言模型,弥合零样本图像分类与目标检测之间的差距。
  • 开发一种知识蒸馏框架,将图像与文本嵌入之间的对齐关系迁移至目标检测器特征中。
  • 实现检测器对新数据集的直接迁移,而无需在标注数据上进行微调。

提出的方法

  • 将预训练的CLIP类图文编码器的知识蒸馏到两阶段检测器(如Mask R-CNN)中。
  • 使用预训练文本编码器中类别名称的文本嵌入作为检测分类器头。
  • 通过最小化距离,将检测器的区域嵌入与预训练图像编码器的图像嵌入对齐。
  • 在推理阶段,将新类别文本嵌入注入分类器头,实现零样本检测。
  • 通过最小化区域嵌入与对应图像嵌入之间的对比损失来训练检测器。
  • 利用预训练模型的语义理解能力指导检测器学习,而无需边界框或掩码标注。

实验结果

研究问题

  • RQ1从预训练的视觉-语言模型中进行知识蒸馏是否能提升零样本目标检测性能?
  • RQ2检测器在无任何标注训练数据的情况下,对新类别的泛化能力如何?
  • RQ3将区域嵌入与预训练图像和文本嵌入对齐,在多大程度上能提升检测准确率?
  • RQ4所提方法是否能有效迁移到COCO和PASCAL VOC等多样化数据集上而无需微调?

主要发现

  • ViLD在LVIS数据集上使用Mask R-CNN(ResNet-50 FPN)实现16.1 mask AP$_r$的零样本检测性能,比监督基线高出3.8个百分点。
  • 该模型可直接泛化至PASCAL VOC,分别在COCO和Objects365上取得72.2 AP$_{50}$、36.6 AP和11.8 AP的性能。
  • 通过在推理时将新类别文本嵌入注入分类器头,实现了零样本检测。
  • 性能提升归因于区域嵌入与预训练模型中图像和文本嵌入之间有效的对齐。
  • 该方法在无需任何微调或额外标注的情况下,展现出在多个数据集上的强大零样本泛化能力。
  • 结果表明,从预训练视觉-语言模型中蒸馏知识能显著提升对未见类别的检测性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。