[论文解读] Weakly Supervised Instance Segmentation using Class Peak Response
该论文提出了一种使用仅图像级标签训练的全卷积网络中的类别峰值响应的弱监督实例分割方法。通过激发并反向传播类别响应图中的局部最大值(峰值),该方法生成了峰值响应图(PRMs),以捕捉细粒度的实例边界和布局,从而在无需像素级标注的情况下实现高质量的实例掩码提取——在PASCAL VOC 2012和MS COCO基准上取得了最先进性能。
Weakly supervised instance segmentation with image-level labels, instead of expensive pixel-level masks, remains unexplored. In this paper, we tackle this challenging problem by exploiting class peak responses to enable a classification network for instance mask extraction. With image labels supervision only, CNN classifiers in a fully convolutional manner can produce class response maps, which specify classification confidence at each image location. We observed that local maximums, i.e., peaks, in a class response map typically correspond to strong visual cues residing inside each instance. Motivated by this, we first design a process to stimulate peaks to emerge from a class response map. The emerged peaks are then back-propagated and effectively mapped to highly informative regions of each object instance, such as instance boundaries. We refer to the above maps generated from class peak responses as Peak Response Maps (PRMs). PRMs provide a fine-detailed instance-level representation, which allows instance masks to be extracted even with some off-the-shelf methods. To the best of our knowledge, we for the first time report results for the challenging image-level supervised instance segmentation task. Extensive experiments show that our method also boosts weakly supervised pointwise localization as well as semantic segmentation performance, and reports state-of-the-art results on popular benchmarks, including PASCAL VOC 2012 and MS COCO.
研究动机与目标
- 解决仅使用图像级标注训练实例分割模型的挑战,避免昂贵的像素级掩码标注。
- 发现并利用深度卷积特征中编码的实例感知视觉线索,而无需实例级监督。
- 开发一种简单、高效且可泛化的方案,兼容标准分类网络与训练流程。
提出的方法
- 在训练过程中激发类别响应图中的局部最大值(峰值),以突出每个物体实例内的强视觉线索。
- 将这些峰值反向传播,映射到如物体边界等高度信息丰富的区域,从而生成峰值响应图(PRMs)。
- 构建一种结合类别感知、实例感知和边界感知项的提案检索度量,以提升掩码预测性能。
- 在PRMs上使用现成的实例分割方法提取最终的实例掩码,几乎无需额外设计。
- 使用标准交叉熵损失和图像级标签训练整个系统,确保与任何现代CNN架构兼容。
实验结果
研究问题
- RQ1类别响应图中的局部最大值能否作为弱监督实例分割中实例感知视觉线索的可靠代理?
- RQ2如何在训练过程中有效激发峰值响应以提升定位精度?
- RQ3峰值反向传播在多大程度上能生成细节丰富、边界感知的表征以用于实例掩码提取?
- RQ4仅使用图像级标签训练的全卷积分类网络能否在无任何实例级监督的情况下实现具有竞争力的实例分割性能?
主要发现
- 所提方法在PASCAL VOC 2012上达到最先进性能,使用ResNet50时在$mAP^{r}_{0.5}$度量下mAP达到26.8%。
- 若省略实例感知项,mAP降至13.3%,表明良好隔离的实例表征在性能中起关键作用。
- 边界感知项使性能提升2.5%,证实PRMs能有效编码细粒度边界信息。
- 使用真实掩码作为提案图库可使mAP提升至73.3%,显著优于SPN,显示出在高质量提案应用中的巨大潜力。
- 该方法在不同网络架构间具有良好泛化能力,在PASCAL VOC 2012上使用VGG16时mAP达22.8%,使用ResNet50时达26.8%。
- 该方法还提升了弱监督点定位与语义分割性能,表明其具有更广泛的应用潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。