QUICK REVIEW

[论文解读] Weakly- and Semi-Supervised Learning of a DCNN for Semantic Image Segmentation

George Papandreou, Liang-Chieh Chen|arXiv (Cornell University)|Feb 9, 2015

Advanced Neural Network Applications参考文献 31被引用 361

一句话总结

本文提出了一种基于期望最大化（EM）框架的训练方法，用于在弱监督（图像级标签或边界框）和半监督（少量像素级标注 + 大量弱标注图像）数据上训练DeepLab-CRF模型。仅使用弱标注时，该方法在PASCAL VOC 2012数据集上达到69.0%的平均交并比（mIOU），通过结合PASCAL和MS-COCO数据集进一步提升至73.9%，显著降低了标注成本，同时达到全监督训练的性能水平。

ABSTRACT

Deep convolutional neural networks (DCNNs) trained on a large number of images with strong pixel-level annotations have recently significantly pushed the state-of-art in semantic image segmentation. We study the more challenging problem of learning DCNNs for semantic image segmentation from either (1) weakly annotated training data such as bounding boxes or image-level labels or (2) a combination of few strongly labeled and many weakly labeled images, sourced from one or multiple datasets. We develop Expectation-Maximization (EM) methods for semantic image segmentation model training under these weakly supervised and semi-supervised settings. Extensive experimental evaluation shows that the proposed techniques can learn models delivering competitive results on the challenging PASCAL VOC 2012 image segmentation benchmark, while requiring significantly less annotation effort. We share source code implementing the proposed system at https://bitbucket.org/deeplab/deeplab-public.

研究动机与目标

通过利用弱监督和半监督学习，降低像素级分割的高标注成本。
开发一种基于EM的方法，利用图像级标签或边界框作为弱监督信号，训练DeepLab-CRF模型。
在仅提供少量像素级标注图像和大量弱标注数据的半监督设置下，评估模型性能。
通过整合来自多个数据集（如PASCAL和MS-COCO）的标注信息，进一步提升性能。
证明弱监督可实现与全监督相当的结果，同时大幅减少标注工作量。

提出的方法

该方法采用期望最大化（EM）算法，交替执行在弱监督约束下估计隐式像素级标签，以及通过随机梯度下降（SGD）优化DeepLab-CRF模型参数。
在E步中，模型基于弱标签（如图像级类别存在性或边界框区域）推断像素级预测，并强制与弱监督信号保持一致。
在M步中，基于估计出的像素级标签，使用标准反向传播算法更新DCNN和CRF参数。
对于边界框监督，方法利用边界框提供的前景/背景分割作为弱监督信号，避免依赖外部的物体性或分割模块。
通过将少量像素级标注图像与大量弱标注图像（边界框或图像级标签）相结合，将该方法扩展至半监督学习场景。
通过在PASCAL和MS-COCO数据集上进行多数据集预训练和联合训练，进一步提升模型性能。

实验结果

研究问题

RQ1当仅使用图像级标签而无任何像素级标注时，基于DCNN的语义分割模型能否实现具有竞争力的性能？
RQ2所提出的基于EM的方法在仅使用边界框标注的情况下，训练语义分割模型的效果如何？
RQ3在仅使用少量像素级标注图像与大量弱标注图像结合的情况下，性能能多大程度上接近全监督模型？
RQ4结合来自多个数据集（如PASCAL和MS-COCO）的弱标注或强标注信息，能否进一步提升分割精度？
RQ5所提出的EM框架是否优于现有的基于MIL的方法，在弱监督语义分割任务中表现更优？

主要发现

仅使用边界框标注时，模型在PASCAL VOC 2012上达到62.2%的平均IOU，表明在极低监督强度下仍具有强大性能。
仅使用图像级标签时，方法达到39.6%的IOU，接近当前最先进水平，且无需依赖外部物体性或分割模块。
在半监督设置下，使用2.9k张像素级标注图像和9k张图像级标注图像，IOU达到68.5%，仅比全监督基线低2%。
通过结合PASCAL和MS-COCO数据集的强标注信息，模型在PASCAL VOC 2012上达到73.9%的IOU，超越此前所有方法。
基于EM的方法优于现有MIL基方法，在显著降低标注成本的同时实现接近最先进水平的性能。
该方法在不同数据集和设置下均表现出良好的泛化能力，展现出在弱监督与半监督学习场景下的鲁棒性与可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。