Skip to main content
QUICK REVIEW

[论文解读] MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features

Liang-Chieh Chen, Alexander Hermans|arXiv (Cornell University)|Dec 13, 2017
Advanced Neural Network Applications参考文献 69被引用 35
一句话总结

MaskLab 提出了一种新颖的实例分割框架,通过整合语义分割和方向预测,对 Faster R-CNN 的目标检测建议框进行优化,以提升前景/背景分离能力和实例去歧义性。该方法在 COCO 数据集上实现了最先进性能,使用 ResNet-101 和 JFT 预训练时达到 43.0% 的掩码 AP,优于 Mask R-CNN 变体,并与更复杂的模型表现相当。

ABSTRACT

In this work, we tackle the problem of instance segmentation, the task of simultaneously solving object detection and semantic segmentation. Towards this goal, we present a model, called MaskLab, which produces three outputs: box detection, semantic segmentation, and direction prediction. Building on top of the Faster-RCNN object detector, the predicted boxes provide accurate localization of object instances. Within each region of interest, MaskLab performs foreground/background segmentation by combining semantic and direction prediction. Semantic segmentation assists the model in distinguishing between objects of different semantic classes including background, while the direction prediction, estimating each pixel's direction towards its corresponding center, allows separating instances of the same semantic class. Moreover, we explore the effect of incorporating recent successful methods from both segmentation and detection (i.e. atrous convolution and hypercolumn). Our proposed model is evaluated on the COCO instance segmentation benchmark and shows comparable performance with other state-of-art models.

研究动机与目标

  • 为解决联合实例分割的挑战——同时以像素级精度检测和分割物体实例。
  • 克服先前方法中对背景区域冗余编码或依赖复杂后处理进行实例分离的局限性。
  • 通过在区域提议中结合语义分类与中心方向预测,提升掩码质量和实例去歧义性。
  • 利用语义分割和检测领域的最新进展,如空洞卷积、多尺度特征柱(hypercolumns)和可变形操作,以增强特征表示能力。

提出的方法

  • MaskLab 扩展 Faster R-CNN,使其输出三个分支:边界框检测、每类的语义分割对数几率(logits)以及每个像素朝其所属实例中心的方向预测对数几率(logits)。
  • 在每个感兴趣区域(RoI)内,模型根据预测类别裁剪语义对数几率,并通过方向池化操作聚合 RoI 内的方向特征。
  • 将裁剪后的语义特征与方向特征拼接,并通过 1×1 卷积层预测前景/背景分割掩码。
  • 模型引入空洞卷积以实现密集特征提取,采用多尺度特征柱捕捉上下文信息,并使用多网格设置以捕获多样化的感受野。
  • 提出一种新型 TensorFlow 操作——'可变形裁剪与重采样'(deformable crop and resize),用于学习自适应的 RoI 采样策略,通过聚焦上下文区域提升检测与分割性能。
  • 该框架通过以可微方式直接使用方向对数几率,避免了复杂的模板匹配,支持端到端训练。

实验结果

研究问题

  • RQ1在 R-CNN 风格的提议区域中结合语义分割与方向预测,是否能在不增加模型复杂度的前提下提升实例分割精度?
  • RQ2与仅使用位置敏感得分图或模板匹配的先前方法相比,语义与方向特征的融合表现如何?
  • RQ3空洞卷积、多尺度特征柱和可变形操作等先进模块在多大程度上提升了实例分割性能?
  • RQ4基于检测的框架,若结合优化后的掩码预测,能否达到与 Mask R-CNN 或 FCIS 等最先进模型相当的性能?

主要发现

  • MaskLab 在使用 ResNet-101 主干网络和 JFT 预训练的 COCO test-dev 上实现了 43.0% 的掩码 AP,优于基于 ResNet-101 的 Mask R-CNN,并与更复杂的模型性能相当。
  • 在训练中引入尺度增强后,MaskLab+ 在边界框检测上达到 41.9% 的 mAP,尽管主干网络性能较弱,仍超越了 G-RMI 和 TDM。
  • 实验表明,语义分割有助于消除冗余的背景编码,相较于使用内部/外部得分图的方法(如 FCIS),在效率和精度上更具优势。
  • 可变形裁剪与重采样操作能学习到围绕物体的环形上下文,通过特征图可视化可见其通过捕捉长距离上下文信息提升了检测性能。
  • 失败案例主要源于检测错误(漏检或误分类的框)以及边界预测粗糙,表明检测可靠性仍是当前的主要瓶颈。
  • 消融实验确认,语义特征与方向特征均不可或缺,两者对最终性能均有显著贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。