QUICK REVIEW

[论文解读] On learning to localize objects with minimal supervision

Hyun Oh Song, Ross Girshick|arXiv (Cornell University)|Mar 5, 2014

Advanced Neural Network Applications参考文献 48被引用 29

一句话总结

本文提出了一种弱监督目标检测框架，仅使用图像级别标签（对象存在/不存在）训练出高精度检测器，通过判别性子模覆盖算法发现正样本对象窗口，并利用平滑潜在SVM进行优化。该方法在PASCAL VOC 2007上相比当前最先进方法实现了50%的平均精度均值（mAP）相对提升。

ABSTRACT

Learning to localize objects with minimal supervision is an important problem in computer vision, since large fully annotated datasets are extremely costly to obtain. In this paper, we propose a new method that achieves this goal with only image-level labels of whether the objects are present or not. Our approach combines a discriminative submodular cover problem for automatically discovering a set of positive object windows with a smoothed latent SVM formulation. The latter allows us to leverage efficient quasi-Newton optimization techniques. Our experiments demonstrate that the proposed approach provides a 50% relative improvement in mean average precision over the current state-of-the-art on PASCAL VOC 2007 detection.

研究动机与目标

解决在缺乏实例级标注（成本高昂）的情况下训练高精度目标检测器的挑战。
开发一种方法，仅利用指示对象存在或不存在的二值图像级别标签来学习定位对象。
通过子模优化实现正样本窗口的鲁棒初始化，超越现有弱监督检测方法。
利用平滑潜在SVM公式优化检测性能，支持高效拟牛顿优化。
在最小监督设置下，于标准PASCAL VOC 2007基准上展示最先进性能。

提出的方法

使用选择性搜索为每张图像生成数百万个重叠的矩形窗口提议。
应用判别性子模覆盖算法，基于与正样本图像的相似性及与负样本图像的不相似性，选择一组紧凑且多样化的正样本窗口，这些窗口极有可能包含目标对象。
使用预训练ImageNet模型（DeCAF）的深度卷积神经网络（CNN）特征表示每个窗口，避免在PASCAL数据上进行微调。
通过平滑潜在SVM公式，利用所选正样本窗口和负样本示例训练初始检测器。
使用高效的拟牛顿方法优化潜在SVM目标，以改进检测器并提升定位精度。
遵循标准PASCAL VOC 2007评估协议，以平均精度为主要指标。

实验结果

研究问题

RQ1能否仅从图像级别标签中学习到鲁棒的正样本对象窗口初始化，而无需任何边界框标注？
RQ2与现有启发式方法（如负样本挖掘）相比，子模优化在处理类内差异和背景杂波方面表现如何？
RQ3当与弱监督和深度CNN特征结合时，平滑潜在SVM公式在多大程度上能提升检测性能？
RQ4所提方法在PASCAL VOC 2007上的弱监督目标检测任务中，相比先前最先进方法的性能增益有多大？
RQ5该方法是否能在不依赖额外实例级标注（如姿态或截断信息）的情况下，泛化到PASCAL VOC等具有挑战性的数据集？

主要发现

所提出的子模覆盖初始化方法在PASCAL VOC 2007上实现了29.0%的平均精度均值（mAP），显著优于先前最先进方法（Siva et al., 2012）的11.6% mAP。
该方法在PASCAL VOC 2007检测基准上相比当前最先进方法实现了50%的mAP相对提升。
负样本挖掘基线方法常因未考虑正样本窗口相似性，而错误选择背景对象、物体部分或合并不同物体。
平滑潜在SVM公式能够有效优化MIL目标，使检测性能在初始检测器基础上进一步提升。
即使在不微调PASCAL数据的情况下使用预训练CNN（DeCAF），该框架仍保持强大性能，表明其对特征表示具有鲁棒性。
该方法在完整PASCAL VOC 2007数据集上达到最先进水平，测试集报告mAP为15.0%，优于依赖额外标注的先前弱监督方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。