Skip to main content
QUICK REVIEW

[论文解读] On learning to localize objects with minimal supervision

Hyun Oh Song, Ross Girshick|arXiv (Cornell University)|Mar 5, 2014
Advanced Neural Network Applications参考文献 48被引用 29
一句话总结

本文提出了一种弱监督目标检测框架,仅使用图像级别标签(对象存在/不存在)训练出高精度检测器,通过判别性子模覆盖算法发现正样本对象窗口,并利用平滑潜在SVM进行优化。该方法在PASCAL VOC 2007上相比当前最先进方法实现了50%的平均精度均值(mAP)相对提升。

ABSTRACT

Learning to localize objects with minimal supervision is an important problem in computer vision, since large fully annotated datasets are extremely costly to obtain. In this paper, we propose a new method that achieves this goal with only image-level labels of whether the objects are present or not. Our approach combines a discriminative submodular cover problem for automatically discovering a set of positive object windows with a smoothed latent SVM formulation. The latter allows us to leverage efficient quasi-Newton optimization techniques. Our experiments demonstrate that the proposed approach provides a 50% relative improvement in mean average precision over the current state-of-the-art on PASCAL VOC 2007 detection.

研究动机与目标

  • 解决在缺乏实例级标注(成本高昂)的情况下训练高精度目标检测器的挑战。
  • 开发一种方法,仅利用指示对象存在或不存在的二值图像级别标签来学习定位对象。
  • 通过子模优化实现正样本窗口的鲁棒初始化,超越现有弱监督检测方法。
  • 利用平滑潜在SVM公式优化检测性能,支持高效拟牛顿优化。
  • 在最小监督设置下,于标准PASCAL VOC 2007基准上展示最先进性能。

提出的方法

  • 使用选择性搜索为每张图像生成数百万个重叠的矩形窗口提议。
  • 应用判别性子模覆盖算法,基于与正样本图像的相似性及与负样本图像的不相似性,选择一组紧凑且多样化的正样本窗口,这些窗口极有可能包含目标对象。
  • 使用预训练ImageNet模型(DeCAF)的深度卷积神经网络(CNN)特征表示每个窗口,避免在PASCAL数据上进行微调。
  • 通过平滑潜在SVM公式,利用所选正样本窗口和负样本示例训练初始检测器。
  • 使用高效的拟牛顿方法优化潜在SVM目标,以改进检测器并提升定位精度。
  • 遵循标准PASCAL VOC 2007评估协议,以平均精度为主要指标。

实验结果

研究问题

  • RQ1能否仅从图像级别标签中学习到鲁棒的正样本对象窗口初始化,而无需任何边界框标注?
  • RQ2与现有启发式方法(如负样本挖掘)相比,子模优化在处理类内差异和背景杂波方面表现如何?
  • RQ3当与弱监督和深度CNN特征结合时,平滑潜在SVM公式在多大程度上能提升检测性能?
  • RQ4所提方法在PASCAL VOC 2007上的弱监督目标检测任务中,相比先前最先进方法的性能增益有多大?
  • RQ5该方法是否能在不依赖额外实例级标注(如姿态或截断信息)的情况下,泛化到PASCAL VOC等具有挑战性的数据集?

主要发现

  • 所提出的子模覆盖初始化方法在PASCAL VOC 2007上实现了29.0%的平均精度均值(mAP),显著优于先前最先进方法(Siva et al., 2012)的11.6% mAP。
  • 该方法在PASCAL VOC 2007检测基准上相比当前最先进方法实现了50%的mAP相对提升。
  • 负样本挖掘基线方法常因未考虑正样本窗口相似性,而错误选择背景对象、物体部分或合并不同物体。
  • 平滑潜在SVM公式能够有效优化MIL目标,使检测性能在初始检测器基础上进一步提升。
  • 即使在不微调PASCAL数据的情况下使用预训练CNN(DeCAF),该框架仍保持强大性能,表明其对特征表示具有鲁棒性。
  • 该方法在完整PASCAL VOC 2007数据集上达到最先进水平,测试集报告mAP为15.0%,优于依赖额外标注的先前弱监督方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。