[论文解读] C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection
C-MIL 在弱监督目标检测(WSOD)的多实例学习(MIL)框架中提出一种延续优化方法,以缓解非凸损失函数带来的问题,通过在空间和类别相关的实例子集上使用平滑损失函数,促进发现稳定语义极值区域(SSERs),从而指示完整物体的范围。在 PASCAL VOC 2007 上达到 63.5% 的 mAP,PASCAL VOC 2012 上达到 46.7%,使用 VGG16 时显著优于先前方法,提升幅度最高达 6.7%。
Weakly supervised object detection (WSOD) is a challenging task when provided with image category supervision but required to simultaneously learn object locations and object detectors. Many WSOD approaches adopt multiple instance learning (MIL) and have non-convex loss functions which are prone to get stuck into local minima (falsely localize object parts) while missing full object extent during training. In this paper, we introduce a continuation optimization method into MIL and thereby creating continuation multiple instance learning (C-MIL), with the intention of alleviating the non-convexity problem in a systematic way. We partition instances into spatially related and class related subsets, and approximate the original loss function with a series of smoothed loss functions defined within the subsets. Optimizing smoothed loss functions prevents the training procedure falling prematurely into local minima and facilitates the discovery of Stable Semantic Extremal Regions (SSERs) which indicate full object extent. On the PASCAL VOC 2007 and 2012 datasets, C-MIL improves the state-of-the-art of weakly supervised object detection and weakly supervised object localization with large margins.
研究动机与目标
- 解决基于 MIL 的弱监督目标检测(WSOD)中非凸损失函数导致的局部极小值问题,该问题常引起对物体部分的错误定位而非完整物体范围。
- 克服现有方法依赖空间正则化或渐进式优化的局限性,这些方法未能系统性解决根本的非凸性问题。
- 提出一种系统性优化策略,通过延续方法逐步从凸损失过渡到非凸损失,实现对完整物体范围的稳定收敛。
- 实现端到端训练,自动发现判别性实例子集并抑制非判别性子集,从而提升检测与定位性能。
提出的方法
- 在 MIL 中引入延续优化,通过在实例子集上定义一系列平滑损失函数,其参数由控制子集粒度的延续参数调节。
- 基于参数化策略将实例划分为空间重叠且类别相似的子集,其中最小参数形成单一子集(所有实例),最大参数形成单个实例。
- 逐步减小延续参数,从完整子集到最小子集,将原始非凸损失转化为一系列更易优化的凸近似。
- 在深度神经网络框架内端到端优化平滑损失函数,使模型能够先学习物体部分,再通过稳定语义极值区域(SSERs)逐步优化至完整物体范围。
- 使用实例子集计算训练损失,每个子集聚合重叠且得分相近的区域,促进一致的物体定位。
- 利用深度特征指导实例选择与子集构建,确保最终检测器激活对应完整物体的区域,而非判别性部分。
实验结果
研究问题
- RQ1延续优化是否能有效缓解基于 MIL 的弱监督目标检测中的非凸性问题,防止过早收敛至局部极小值?
- RQ2将实例划分为空间与类别相关的子集,是否相比标准 MIL 更有助于发现完整物体范围?
- RQ3一系列从凸到非凸渐进过渡的平滑损失函数,是否能提升弱监督目标检测中的泛化与定位性能?
- RQ4与最先进方法相比,所提出的 C-MIL 方法在 PASCAL VOC 2007 和 2012 等标准基准上,mAP 与定位准确率的提升程度如何?
主要发现
- C-MIL 在使用 VGG16 主干网络的 PASCAL VOC 2007 数据集上达到新的最先进 mAP 63.5%,优于此前最先进方法(MELM)3.2%。
- 在使用 VGG16 的 PASCAL VOC 2012 数据集上,C-MIL 达到 46.7% mAP,优于最佳先前方法(MELM)4.3%,优于 WeakRPN 5.9%。
- 在物体定位任务中,C-MIL 在 VOC 2007 上达到 65.0% CorLoc,在 VOC 2012 上达到 67.4%,分别优于 TS 2 C 4.0% 和 2.5%。
- 使用 C-MIL 生成的伪边界框微调 Fast-RCNN 检测器后,VOC 2007 上 mAP 达到 53.1%,超过此前最先进方法 2.7% 至 6.1%。
- 该方法在具有挑战性的类别上显著提升检测性能:VOC 2007 中 'bird' 类提升 +5.8%,'train' 类提升 +4.5%,'cat' 类提升 +3.5%。
- 延续优化的使用使模型能够逐步细化实例子集,从粗到细,成功发现稳定语义极值区域(SSERs),其对应完整物体的范围。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。