[论文解读] What's the Point: Semantic Segmentation with Point Supervision
本文提出点级监督——即标注者为每个物体类别标注一个点——作为语义分割中图像级或全像素级标注的更高效替代方案。通过将学习到的物体存在先验融入CNN损失函数,该方法在PASCAL VOC 2012上达到43.6%的mIOU,相比图像级监督高出12.9%的mIOU,并在相同标注预算下超越了使用波浪线级或全监督训练的模型。
The semantic image segmentation task presents a trade-off between test time accuracy and training-time annotation cost. Detailed per-pixel annotations enable training accurate models but are very time-consuming to obtain, image-level class labels are an order of magnitude cheaper but result in less accurate models. We take a natural step from image-level annotation towards stronger supervision: we ask annotators to point to an object if one exists. We incorporate this point supervision along with a novel objectness potential in the training loss function of a CNN model. Experimental results on the PASCAL VOC 2012 benchmark reveal that the combined effect of point-level supervision and objectness potential yields an improvement of 12.9% mIOU over image-level supervision. Further, we demonstrate that models trained with point-level supervision are more accurate than models trained with image-level, squiggle-level or full supervision given a fixed annotation budget.
研究动机与目标
- 在降低语义分割标注成本的同时,提升模型性能,超越图像级监督。
- 探究点级标注——仅需最少人工投入——是否可作为强大且实用的弱监督形式。
- 开发一种新型训练损失函数,整合物体存在先验,以指导模型从稀疏点监督中预测完整的物体范围。
- 评估在多种监督范式(包括全监督、波浪线级、图像级和点级监督)下,标注时间与分割准确率之间的权衡。
- 提供一个公开可访问的数据集和标注接口,以促进未来语义分割研究中点级监督的采用。
提出的方法
- 标注者在每张图像中为每个物体类别标注一个实例,显著减少了与像素级标注相比的标注时间。
- 使用结合点监督与学习到的物体存在势能的改进损失函数,训练一个深度卷积神经网络(CNN)。
- 物体存在势能是每个像素的得分,用于估计该位置属于物体的可能性,来源于预训练的物体存在模型。
- 损失函数结合了点监督的交叉熵损失与物体存在得分的加权和,以促使网络在物体区域预测高置信度。
- 模型使用标准CNN架构(如FCN-8s或类似)通过随机梯度下降端到端训练,基于先前工作进行调整。
- 在训练过程中,将物体存在先验作为损失中的单变量项应用,帮助网络在稀疏监督下仍能有效区分物体与背景。
实验结果
研究问题
- RQ1当标注者仅标注物体而非所有像素时,点级监督是否能显著提升语义分割的准确率,相比图像级监督?
- RQ2在固定标注预算下,点级监督的性能与其它弱监督形式(如波浪线标注、边界框)相比如何?
- RQ3能否有效将学习到的物体存在先验整合到训练损失中,以提升从稀疏点标注中泛化的能力?
- RQ4当总标注时间受限时,点级监督是否优于全像素级监督?
- RQ5点监督与物体存在先验的结合是否比单独使用任一成分更有效?
主要发现
- 在PASCAL VOC 2012验证集上,点级监督相比图像级监督将mIOU提升了12.9%,达到42.9%的mIOU。
- 在固定标注预算下,使用点级监督训练的模型相比图像级、波浪线级和全像素级监督训练的模型,mIOU高出2.7%至20.8%。
- 在PASCAL VOC 2012测试集上,该方法达到43.6%的mIOU,优于图像级监督(29.8% mIOU),并匹配或超越其他弱监督方法。
- 物体存在先验显著提升了泛化能力,使得仅凭每类一个点即可实现准确的分割,即使未标注物体的完整范围。
- 点级监督的标注时间估计为约79小时(针对9,576张图像),而全像素级监督需约800小时,效率高得多。
- 该方法具有鲁棒性和泛化能力:即使简化基线模型在使用点级监督时,也优于最先进的弱监督模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。