QUICK REVIEW

[论文解读] What's the Point: Semantic Segmentation with Point Supervision

Amy Bearman, Olga Russakovsky|arXiv (Cornell University)|Jun 6, 2015

Advanced Neural Network Applications参考文献 46被引用 47

一句话总结

本文提出点级监督——即标注者为每个物体类别标注一个点——作为语义分割中图像级或全像素级标注的更高效替代方案。通过将学习到的物体存在先验融入CNN损失函数，该方法在PASCAL VOC 2012上达到43.6%的mIOU，相比图像级监督高出12.9%的mIOU，并在相同标注预算下超越了使用波浪线级或全监督训练的模型。

ABSTRACT

The semantic image segmentation task presents a trade-off between test time accuracy and training-time annotation cost. Detailed per-pixel annotations enable training accurate models but are very time-consuming to obtain, image-level class labels are an order of magnitude cheaper but result in less accurate models. We take a natural step from image-level annotation towards stronger supervision: we ask annotators to point to an object if one exists. We incorporate this point supervision along with a novel objectness potential in the training loss function of a CNN model. Experimental results on the PASCAL VOC 2012 benchmark reveal that the combined effect of point-level supervision and objectness potential yields an improvement of 12.9% mIOU over image-level supervision. Further, we demonstrate that models trained with point-level supervision are more accurate than models trained with image-level, squiggle-level or full supervision given a fixed annotation budget.

研究动机与目标

在降低语义分割标注成本的同时，提升模型性能，超越图像级监督。
探究点级标注——仅需最少人工投入——是否可作为强大且实用的弱监督形式。
开发一种新型训练损失函数，整合物体存在先验，以指导模型从稀疏点监督中预测完整的物体范围。
评估在多种监督范式（包括全监督、波浪线级、图像级和点级监督）下，标注时间与分割准确率之间的权衡。
提供一个公开可访问的数据集和标注接口，以促进未来语义分割研究中点级监督的采用。

提出的方法

标注者在每张图像中为每个物体类别标注一个实例，显著减少了与像素级标注相比的标注时间。
使用结合点监督与学习到的物体存在势能的改进损失函数，训练一个深度卷积神经网络（CNN）。
物体存在势能是每个像素的得分，用于估计该位置属于物体的可能性，来源于预训练的物体存在模型。
损失函数结合了点监督的交叉熵损失与物体存在得分的加权和，以促使网络在物体区域预测高置信度。
模型使用标准CNN架构（如FCN-8s或类似）通过随机梯度下降端到端训练，基于先前工作进行调整。
在训练过程中，将物体存在先验作为损失中的单变量项应用，帮助网络在稀疏监督下仍能有效区分物体与背景。

实验结果

研究问题

RQ1当标注者仅标注物体而非所有像素时，点级监督是否能显著提升语义分割的准确率，相比图像级监督？
RQ2在固定标注预算下，点级监督的性能与其它弱监督形式（如波浪线标注、边界框）相比如何？
RQ3能否有效将学习到的物体存在先验整合到训练损失中，以提升从稀疏点标注中泛化的能力？
RQ4当总标注时间受限时，点级监督是否优于全像素级监督？
RQ5点监督与物体存在先验的结合是否比单独使用任一成分更有效？

主要发现

在PASCAL VOC 2012验证集上，点级监督相比图像级监督将mIOU提升了12.9%，达到42.9%的mIOU。
在固定标注预算下，使用点级监督训练的模型相比图像级、波浪线级和全像素级监督训练的模型，mIOU高出2.7%至20.8%。
在PASCAL VOC 2012测试集上，该方法达到43.6%的mIOU，优于图像级监督（29.8% mIOU），并匹配或超越其他弱监督方法。
物体存在先验显著提升了泛化能力，使得仅凭每类一个点即可实现准确的分割，即使未标注物体的完整范围。
点级监督的标注时间估计为约79小时（针对9,576张图像），而全像素级监督需约800小时，效率高得多。
该方法具有鲁棒性和泛化能力：即使简化基线模型在使用点级监督时，也优于最先进的弱监督模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。