[论文解读] BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation
BlendMask 引入一个混合器模块,在一个全卷积流水线中将自上而下的实例级信息与自下而上的高分辨率像素特征融合,在掩模质量上超越 Mask R-CNN,且在 COCO 数据集上速度大约快20%。一个轻量版本在 25 FPS 下达到 34.2% mAP。
Instance segmentation is one of the fundamental vision tasks. Recently, fully convolutional instance segmentation methods have drawn much attention as they are often simpler and more efficient than two-stage approaches like Mask R-CNN. To date, almost all such approaches fall behind the two-stage Mask R-CNN method in mask precision when models have similar computation complexity, leaving great room for improvement. In this work, we achieve improved mask prediction by effectively combining instance-level information with semantic information with lower-level fine-granularity. Our main contribution is a blender module which draws inspiration from both top-down and bottom-up instance segmentation approaches. The proposed BlendMask can effectively predict dense per-pixel position-sensitive instance features with very few channels, and learn attention maps for each instance with merely one convolution layer, thus being fast in inference. BlendMask can be easily incorporated with the state-of-the-art one-stage detection frameworks and outperforms Mask R-CNN under the same training schedule while being 20% faster. A light-weight version of BlendMask achieves $ 34.2% $ mAP at 25 FPS evaluated on a single 1080Ti GPU card. Because of its simplicity and efficacy, we hope that our BlendMask could serve as a simple yet strong baseline for a wide range of instance-wise prediction tasks. Code is available at https://git.io/AdelaiDet
研究动机与目标
- 激励并开发一个密集的、全卷积的实例分割框架,将粗粒度的实例级信息与细粒度像素细节结合起来。
- 设计一个轻量级的 blender 模块,高效合并 bases 和 attentions 以得到每个实例的掩模。
- 将 BlendMask 与一个一阶段检测器(基于 FCOS)集成,并在 COCO 上评估,以在精度和速度上超越两阶段方法。
- 展示 BlendMask 支持高分辨率掩模预测,并且在最少修改的情况下可扩展到全景分割。
提出的方法
- 提出一个底部模块,在特征图上预测一组基础特征(bases)。
- 添加一个顶部层,为每个预测的边界框产生实例级注意力图。
- 引入一个 blender,通过 proposal 对基础特征进行裁剪、对注意力进行上采样、对其进行归一化,并线性混合基础特征以生成最终掩模。
- 使用 RoIPool/RoIAlign 基于裁剪和按提案的注意力引导融合来产生每个实例的掩模。
- 在分辨率、 bases 数量和特征来源之间进行实验,以在准确性和速度之间取得平衡。
- 在 COCO 上使用 ResNet 主干并以 DeepLabV3+ 作为底部模块解码器进行评估;与 YOLACT、FCIS、Mask R-CNN 和 TensorMask 进行对比。
实验结果
研究问题
- RQ1一个自上而下的注意力引导混合器在与自下而上的基础融合时,是否能在全卷积流水线中改进密集的逐像素实例掩模?
- RQ2底部/顶部分辨率、基础数量和输入特征对掩模精度和速度有何影响?
- RQ3BlendMask 在 COCO 上与现有的一阶段和两阶段方法在准确性和推理时间上的对比如何?
- RQ4是否可以通过最少修改将 BlendMask 扩展到全景分割?
主要发现
- BlendMask 在 COCO 上使用 ResNet-50 达到 37.0% mAP,使用 ResNet-101 达到 38.4% mAP,在相同训练计划下超越 Mask R-CNN,同时速度大约快20%。
- 一个轻量版本在 COCO 上以 25 FPS 实现 34.2% mAP,显示出强大的实时性能。
- 混合模块在消融实验中对比 YOLACT 和 FCIS 的融合效果有显著提升(如 Blender 优于两个基线)。
- 提高顶部注意力分辨率 M 可在接近区域大小约四分之一时达到性能饱和;底部基础分辨率可以在时间成本不高的情况下提高。
- BlendMask 可以生成比 Mask R-CNN(通常为 28x28)更高分辨率的掩模(56x56),从而边缘更清晰、实例判别更好。
- BlendMask 通过将实例掩模与语义分割相结合,轻松扩展到全景分割,并在 COCO 全景结果中优于 Panoptic-FPN 基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。