QUICK REVIEW

[论文解读] BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation

Jifeng Dai, Kaiming He|arXiv (Cornell University)|Mar 5, 2015

Advanced Neural Network Applications参考文献 33被引用 146

一句话总结

BoxSup 提出了一种弱监督语义分割方法，通过仅使用边界框标注训练深度卷积网络，结合区域提议与模型更新之间的迭代优化。该方法在 PASCAL VOC 2012（40.5 平均 IoU）和 PASCAL-CONTEXT（40.5 平均 IoU）上达到最先进性能，通过利用大规模 COCO 边界框数据，超越了完全掩码监督基线模型，证明了在结合迭代优化时，粗粒度标注可有效提升分割精度。

ABSTRACT

Recent leading approaches to semantic segmentation rely on deep convolutional networks trained with human-annotated, pixel-level segmentation masks. Such pixel-accurate supervision demands expensive labeling effort and limits the performance of deep networks that usually benefit from more training data. In this paper, we propose a method that achieves competitive accuracy but only requires easily obtained bounding box annotations. The basic idea is to iterate between automatically generating region proposals and training convolutional networks. These two steps gradually recover segmentation masks for improving the networks, and vise versa. Our method, called BoxSup, produces competitive results supervised by boxes only, on par with strong baselines fully supervised by masks under the same setting. By leveraging a large amount of bounding boxes, BoxSup further unleashes the power of deep convolutional networks and yields state-of-the-art results on PASCAL VOC 2012 and PASCAL-CONTEXT.

研究动机与目标

减少在训练深度卷积神经网络进行语义分割时对昂贵像素级分割掩码的依赖。
探索边界框标注——可大规模获取——是否可作为掩码监督的可行替代或补充。
开发一种迭代训练框架，从粗粒度框级监督逐步提升分割掩码质量。
证明大规模边界框数据可显著提升模型性能，即使在结合弱监督时，亦可超越完全掩码监督基线模型。

提出的方法

在训练网络生成区域提议与使用这些提议作为伪掩码重新训练网络之间进行迭代交替。
使用无监督区域提议方法（如 Selective Search）从边界框约束生成候选分割掩码。
使用生成的伪掩码训练全卷积网络（FCN），损失通过交叉熵或基于 IoU 的优化计算。
在 COCO 边界框与有限的 PASCAL VOC 掩码标注组合上微调网络，以提升泛化能力。
应用 CRF 后处理和推理时数据增强（多尺度推理）以进一步提升性能。
利用 ImageNet 预训练和迁移学习，即使在弱监督下也能提升特征质量。

实验结果

研究问题

RQ1当仅使用边界框标注而非像素级掩码训练时，语义分割模型能否实现具有竞争力的性能？
RQ2大规模边界框标注在多大程度上能提升弱监督语义分割模型的性能？
RQ3区域提议与网络更新之间的迭代优化是否能逐步生成更优的分割掩码与更高的模型准确率？
RQ4当结合大规模数据时，边界框监督能否超越或匹配完全掩码监督模型的性能？

主要发现

BoxSup 仅使用 10k 个掩码标注和 133k 个 COCO 边界框，在 PASCAL-CONTEXT 上实现 40.5 的平均 IoU，优于完全掩码监督基线模型（35.7 平均 IoU）。
在 PASCAL VOC 2012 上，BoxSup 使用 VOC 掩码和 COCO 边界框达到 73.1 mAP，超过仅使用 COCO 掩码的强基线模型（71.0 mAP）。
该方法在 PASCAL VOC 2012 和 PASCAL-CONTEXT 基准上均达到最先进性能，即使监督信号远弱于标准掩码方法。
半监督变体将 9/10 的掩码标注替换为边界框后，性能与完全掩码监督模型相当，表明标注成本显著降低。
误差分析表明，边界框数据的主要优势在于提升物体识别准确率，其次在边界定位方面也有增益。
推理时尺度增强将 BoxSup 在 VOC 2012 上的性能从 73.1 mAP 提升至 75.2 mAP，接近强掩码监督模型的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。