[论文解读] Bridging Category-level and Instance-level Semantic Image Segmentation
本文在类别级语义分割之上构建实例分割方法,通过从语义掩码预测实例边界框变换,将类别级语义分割转换为实例定位;引入对难样本的在线自举训练,并在 PASCAL VOC 2012 上实现最先进的语义 IoU,并具备竞争力的实例分割性能。
We propose an approach to instance-level image segmentation that is built on top of category-level segmentation. Specifically, for each pixel in a semantic category mask, its corresponding instance bounding box is predicted using a deep fully convolutional regression network. Thus it follows a different pipeline to the popular detect-then-segment approaches that first predict instances' bounding boxes, which are the current state-of-the-art in instance segmentation. We show that, by leveraging the strength of our state-of-the-art semantic segmentation models, the proposed method can achieve comparable or even better results to detect-then-segment approaches. We make the following contributions. (i) First, we propose a simple yet effective approach to semantic instance segmentation. (ii) Second, we propose an online bootstrapping method during training, which is critically important for achieving good performance for both semantic category segmentation and instance-level segmentation. (iii) As the performance of semantic category segmentation has a significant impact on the instance-level segmentation, which is the second step of our approach, we train fully convolutional residual networks to achieve the best semantic category segmentation accuracy. On the PASCAL VOC 2012 dataset, we obtain the currently best mean intersection-over-union score of 79.1%. (iv) We also achieve state-of-the-art results for instance-level segmentation.
研究动机与目标
- 激发并开发一种利用强类别级分割的实例分割方法
- 通过基于回归的边界框变换将语义分数图转换为候选实例位置
- 通过对困难像素的在线自举训练来改进训练,以提升语义与实例分割性能
- 设计并评估具有大视野和膨胀卷积的全卷积残差网络(FCRN)
- 在标准基准上展示最先进的语义分割和具竞争力的实例分割(PASCAL VOC 2012、Cityscapes、PASCAL-Context)
提出的方法
- 使用基于 FCN 的残差网络(FCRN)预测按类别的语义分数图
- 学习定位/回归网络,从每个像素预测实例边界框的上下/左右偏移以及高/宽
- 使用预测的边界框变换转换语义分数图,得到逐像素的定位图
- 在变换后的图上应用非极大值抑制以生成实例假设
- 在 NMS 派生的区域内回溯并对分数取平均以形成实例掩码,随后进行基于区域的 NMS 以得到最终结果
- 通过在线自举训练对容易像素降权(语义:基于 p_ij < t;定位:基于预测框与真实框的 IoU),以聚焦于困难样本
- 通过将 ResNet 改造成全卷积网络来构建 FCRN,移除最后的池化层,使用空洞/膨胀卷积以在保持分辨率的同时实现较大的感受野,并实现用于像素级分类的高分辨率特征图
实验结果
研究问题
- RQ1在没有边界框检测器的情况下,能否在之上基于语义类别级分割获得高质量的实例分割?
- RQ2对困难像素的在线自举训练是否能同时提升语义和实例分割性能?
- RQ3全卷积残差网络中的深度、分辨率、视野和膨胀等结构选择如何影响分割精度?
- RQ4改进的语义分割对下游实例分割性能有何影响?
- RQ5所提出的方法在标准基准上与基于边界框检测的实例分割方法相比如何?
主要发现
- 语义分割在 PASCAL VOC 2012 上实现了最先进的平均 IoU,达到 79.1%,并使用增强训练数据
- 实例级结果与先前最佳方法相当或更好,在 IoU 0.7 时 mAP_r 的平均精度提升了 5.1 个百分点(从 41.5% 提升到 46.6%)
- 对困难像素的在线自举显著提升性能,包括 Cityscapes 上的 IoU 提升 3.1%
- 性能最好的语义模型(带自举的 FCRN)带来强大的语义准确性,进而提升实例分割性能
- 在 COCO 上对语义网络进行预训练可以进一步提升实例分割性能约 2.0%(IoU 0.5 时的 mAP_r)
- 定性结果展示了准确的语义界定和连贯的实例掩码,而不依赖边界框检测器
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。