[论文解读] Soft Proposal Networks for Weakly Supervised Object Localization
本文提出软提议网络(SPNs),一种新颖的端到端框架,将近乎零成本、可微分的对象提议集成到标准CNN中,用于弱监督目标定位。通过仅使用图像级别标签,迭代地从深度特征演化软提议,并与网络权重联合优化,SPNs在PASCAL VOC、MS COCO和ImageNet上实现了最先进性能,显著提升了定位精度和特征表示能力,同时保持了高速度(每张图像0.9毫秒)。
Weakly supervised object localization remains challenging, where only image labels instead of bounding boxes are available during training. Object proposal is an effective component in localization, but often computationally expensive and incapable of joint optimization with some of the remaining modules. In this paper, to the best of our knowledge, we for the first time integrate weakly supervised object proposal into convolutional neural networks (CNNs) in an end-to-end learning manner. We design a network component, Soft Proposal (SP), to be plugged into any standard convolutional architecture to introduce the nearly cost-free object proposal, orders of magnitude faster than state-of-the-art methods. In the SP-augmented CNNs, referred to as Soft Proposal Networks (SPNs), iteratively evolved object proposals are generated based on the deep feature maps then projected back, and further jointly optimized with network parameters, with image-level supervision only. Through the unified learning process, SPNs learn better object-centric filters, discover more discriminative visual evidence, and suppress background interference, significantly boosting both weakly supervised object localization and classification performance. We report the best results on popular benchmarks, including PASCAL VOC, MS COCO, and ImageNet.
研究动机与目标
- 解决训练期间仅提供图像级别标签的弱监督目标定位挑战。
- 克服流水线方法将对象提议生成与分类分离的局限性,从而无法实现联合优化。
- 引入一种近乎零成本、可微分的提议机制,可无缝集成到任何标准CNN架构中。
- 通过使网络能够聚焦于判别性物体部分并抑制背景干扰,同时提升定位和分类性能。
- 证明当弱监督对象提议与网络参数联合优化时,可增强特征学习和跨基准的泛化能力。
提出的方法
- 设计一个软提议(SP)模块,为深度特征图中的每个感受野生成对象性分数,避免昂贵的区域提议生成。
- 将软提议图投影回特征图,创建一种可微分的注意力机制,突出显示信息丰富的区域。
- 在反向传播过程中实现提议的迭代演化,使提议与网络权重在图像级别监督下实现端到端协同适应。
- 将SP模块集成到现有CNN(如VGG、GoogLeNet、CNN-S)中,形成软提议网络(SPNs),在保留原始架构的同时增加提议能力。
- 使用提议与激活的概率融合方式,在无需超参数阈值调优的情况下聚合所有空间位置的信息。
- 使用标准交叉熵损失和图像级别标签训练SPNs,实现滤波器与提议的联合优化,无需边界框标注。
实验结果
研究问题
- RQ1能否将一种可微分、近乎零成本的对象提议机制集成到标准CNN中,以实现端到端的弱监督目标定位?
- RQ2在图像级别监督下,与流水线或不可微分方法相比,联合优化对象提议与网络参数是否能提升定位精度?
- RQ3所提出的软提议机制是否能帮助网络发现更细粒度、更具判别性的视觉证据(如肢体、纹理),同时抑制背景共现模式?
- RQ4弱监督提议功能的引入在多大程度上提升了定位和分类性能?
- RQ5与最先进方法相比,该方法在PASCAL VOC、COCO和ImageNet等基准上的速度、精度和泛化能力如何?
主要发现
- 在PASCAL VOC2012上,SPNs相比最先进方法实现了5.8%的mAP提升,在MS COCO2014上实现了6%的mAP增益,且无需多尺度测试。
- 在ILSVRC2014验证集上,SPN将边界框定位误差从38.8%(Fb [35])降低至36.3%,在平均CorLoc上优于ContextLoc约5%。
- 对于“狗”、“猫”、“马”和“人”类别,SPN相比对比方法将定位性能提升了20–30%,显示出更强的检测细粒度物体部件的能力。
- SP-GoogLeNetGAP在ImageNet ILSVRC2014上将top-1错误率降低了1.5%(33.5% vs. 35.0%),表明SPNs能增强特征表示能力,即使在分类任务中亦然。
- 在COCO2014和VOC2007上微调后,SP-GoogLeNetGAP在VOC2007上比基线高出4.5%,证实了其强大的泛化能力。
- SP模块极为高效,每张图像仅需约0.9毫秒——比RPN快10倍,比EdgeBoxes快200倍——适用于实时应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。