Skip to main content
QUICK REVIEW

[论文解读] What's the Point: Semantic Segmentation with Point Supervision

Amy Bearman, Olga Russakovsky|arXiv (Cornell University)|Jun 6, 2015
Advanced Neural Network Applications参考文献 46被引用 47
一句话总结

本文提出点级监督——即标注者为每个物体类别标注一个点——作为语义分割中图像级或全像素级标注的更高效替代方案。通过将学习到的物体存在先验融入CNN损失函数,该方法在PASCAL VOC 2012上达到43.6%的mIOU,相比图像级监督高出12.9%的mIOU,并在相同标注预算下超越了使用波浪线级或全监督训练的模型。

ABSTRACT

The semantic image segmentation task presents a trade-off between test time accuracy and training-time annotation cost. Detailed per-pixel annotations enable training accurate models but are very time-consuming to obtain, image-level class labels are an order of magnitude cheaper but result in less accurate models. We take a natural step from image-level annotation towards stronger supervision: we ask annotators to point to an object if one exists. We incorporate this point supervision along with a novel objectness potential in the training loss function of a CNN model. Experimental results on the PASCAL VOC 2012 benchmark reveal that the combined effect of point-level supervision and objectness potential yields an improvement of 12.9% mIOU over image-level supervision. Further, we demonstrate that models trained with point-level supervision are more accurate than models trained with image-level, squiggle-level or full supervision given a fixed annotation budget.

研究动机与目标

  • 在降低语义分割标注成本的同时,提升模型性能,超越图像级监督。
  • 探究点级标注——仅需最少人工投入——是否可作为强大且实用的弱监督形式。
  • 开发一种新型训练损失函数,整合物体存在先验,以指导模型从稀疏点监督中预测完整的物体范围。
  • 评估在多种监督范式(包括全监督、波浪线级、图像级和点级监督)下,标注时间与分割准确率之间的权衡。
  • 提供一个公开可访问的数据集和标注接口,以促进未来语义分割研究中点级监督的采用。

提出的方法

  • 标注者在每张图像中为每个物体类别标注一个实例,显著减少了与像素级标注相比的标注时间。
  • 使用结合点监督与学习到的物体存在势能的改进损失函数,训练一个深度卷积神经网络(CNN)。
  • 物体存在势能是每个像素的得分,用于估计该位置属于物体的可能性,来源于预训练的物体存在模型。
  • 损失函数结合了点监督的交叉熵损失与物体存在得分的加权和,以促使网络在物体区域预测高置信度。
  • 模型使用标准CNN架构(如FCN-8s或类似)通过随机梯度下降端到端训练,基于先前工作进行调整。
  • 在训练过程中,将物体存在先验作为损失中的单变量项应用,帮助网络在稀疏监督下仍能有效区分物体与背景。

实验结果

研究问题

  • RQ1当标注者仅标注物体而非所有像素时,点级监督是否能显著提升语义分割的准确率,相比图像级监督?
  • RQ2在固定标注预算下,点级监督的性能与其它弱监督形式(如波浪线标注、边界框)相比如何?
  • RQ3能否有效将学习到的物体存在先验整合到训练损失中,以提升从稀疏点标注中泛化的能力?
  • RQ4当总标注时间受限时,点级监督是否优于全像素级监督?
  • RQ5点监督与物体存在先验的结合是否比单独使用任一成分更有效?

主要发现

  • 在PASCAL VOC 2012验证集上,点级监督相比图像级监督将mIOU提升了12.9%,达到42.9%的mIOU。
  • 在固定标注预算下,使用点级监督训练的模型相比图像级、波浪线级和全像素级监督训练的模型,mIOU高出2.7%至20.8%。
  • 在PASCAL VOC 2012测试集上,该方法达到43.6%的mIOU,优于图像级监督(29.8% mIOU),并匹配或超越其他弱监督方法。
  • 物体存在先验显著提升了泛化能力,使得仅凭每类一个点即可实现准确的分割,即使未标注物体的完整范围。
  • 点级监督的标注时间估计为约79小时(针对9,576张图像),而全像素级监督需约800小时,效率高得多。
  • 该方法具有鲁棒性和泛化能力:即使简化基线模型在使用点级监督时,也优于最先进的弱监督模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。