[论文解读] Where are the Masks: Instance Segmentation with Image-level Supervision
本文提出 WISE,一种仅使用图像级别标签的两阶段实例分割框架,其中通过峰值激活的分类器生成伪掩码,再用于训练全监督的 Mask R-CNN。该方法在弱监督设置下的 PASCAL VOC 2012 数据集上实现了最先进性能,优于使用更强监督信号(如边界框和目标计数)的方法。
A major obstacle in instance segmentation is that existing methods often need many per-pixel labels in order to be effective. These labels require large human effort and for certain applications, such labels are not readily available. To address this limitation, we propose a novel framework that can effectively train with image-level labels, which are significantly cheaper to acquire. For instance, one can do an internet search for the term "car" and obtain many images where a car is present with minimal effort. Our framework consists of two stages: (1) train a classifier to generate pseudo masks for the objects of interest; (2) train a fully supervised Mask R-CNN on these pseudo masks. Our two main contribution are proposing a pipeline that is simple to implement and is amenable to different segmentation methods; and achieves new state-of-the-art results for this problem setup. Our results are based on evaluating our method on PASCAL VOC 2012, a standard dataset for weakly supervised methods, where we demonstrate major performance gains compared to existing methods with respect to mean average precision.
研究动机与目标
- 通过利用成本更低的图像级别标签,解决实例分割中像素级标注的高成本问题。
- 开发一种可扩展、简单且可泛化的弱监督实例分割模型训练框架。
- 在仅使用图像级别或更粗粒度标签的现有方法基础上,进一步提升弱监督实例分割的性能。
- 探究全监督模型(如 Mask R-CNN)是否能有效利用从图像级别标签生成的噪声大、不完整的伪掩码进行训练。
提出的方法
- 使用峰值激活层通过识别类别激活图中的激活峰值来定位物体实例。
- 利用物体提议(如 MCG)在检测到的峰值位置生成粗略的掩码预测。
- 这些生成的掩码作为伪标签,用于训练全监督的 Mask R-CNN。
- Mask R-CNN 在伪掩码上端到端训练,利用其对噪声和不完整监督的鲁棒性。
- 该框架模块化,可与多种定位和分割组件兼容,如基于密度的 PRM 或 RetinaMask。
- 在 PASCAL VOC 2012 上使用 mAP 作为主要评估指标进行方法评估。
实验结果
研究问题
- RQ1全监督实例分割模型(如 Mask R-CNN)是否能有效利用从图像级别标签生成的伪掩码进行训练?
- RQ2弱监督实例分割模型的性能与全监督基线及其他弱监督方法相比如何?
- RQ3噪声大且不完整的伪掩码在多大程度上影响最终分割质量?Mask R-CNN 是否能通过其架构缓解这一问题?
- RQ4该框架在不同定位与分割组件之间是否具备泛化能力?
主要发现
- WISE 在 PASCAL VOC 2012 验证集上实现了 37.5 的平均精度(mAP),显著优于仅使用图像级别监督的先前方法。
- 该方法超越了 Cholakkal 等人(2019)的工作,后者使用了更强的监督信号(目标计数),证明了两阶段伪标签生成流程的有效性。
- 尽管伪掩码的平均 mAP 仅为 25.8,但最终 Mask R-CNN 的预测 mAP 达到 37.5,表明模型能从噪声标签中实现强大的泛化能力。
- 模型在小物体以及包含超过四个物体的图像上表现较差,表明其在定位和提议质量方面存在局限。
- 消融实验表明,WISE 与全监督 Mask R-CNN 之间的性能差距在小物体和高目标数量图像中最为显著。
- 定性结果表明,WISE 即使在伪掩码质量较低的情况下,也能在多种类别上生成合理且准确的实例掩码。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。