[论文解读] SOLO: Segmenting Objects by Locations
SOLO 将实例分割重新表述为两步像素级分类任务,通过为每个网格单元分配一个对象中心位置和大小,使直接、无框、一次性掩码预测成为可能。它在准确性方面与 Mask R-CNN 相当并且超过了先前的单发方法。
We present a new, embarrassingly simple approach to instance segmentation in images. Compared to many other dense prediction tasks, e.g., semantic segmentation, it is the arbitrary number of instances that have made instance segmentation much more challenging. In order to predict a mask for each instance, mainstream approaches either follow the 'detect-thensegment' strategy as used by Mask R-CNN, or predict category masks first then use clustering techniques to group pixels into individual instances. We view the task of instance segmentation from a completely new perspective by introducing the notion of "instance categories", which assigns categories to each pixel within an instance according to the instance's location and size, thus nicely converting instance mask segmentation into a classification-solvable problem. Now instance segmentation is decomposed into two classification tasks. We demonstrate a much simpler and flexible instance segmentation framework with strong performance, achieving on par accuracy with Mask R-CNN and outperforming recent singleshot instance segmenters in accuracy. We hope that this very simple and strong framework can serve as a baseline for many instance-level recognition tasks besides instance segmentation.
研究动机与目标
- 重新考虑如何通过位置和大小来区分对象实例。
- 基于中心位置和特征金字塔层次引入实例类别。
- 开发一个端到端、单发框架,在不进行后处理的情况下输出掩码和类别。
- 通过 CoordConv 将空间信息嵌入到 CNN 中。
- 展示在 COCO 上与现有方法相比的强性能。
提出的方法
- 将图像划分为 S x S 网格;每个单元预测一个语义类别以及该单元中心所在对象的实例掩码。
- 使用特征金字塔网络(FPN)通过将对象分配到不同特征层来处理不同尺度的对象。
- 在每个 FPN 层附加两个预测头(类别和掩码),权重共享;掩码以网格位置为条件。
- 通过将像素坐标拼接到输入特征中来实现 CoordConv,使预测具有空间变化性。
- 使用综合损失 L = L_cate + λ L_mask 进行训练,其中 L_mask 使用 Dice 损失以实现稳定的掩码优化。
实验结果
研究问题
- RQ1实例分割能否在单次前提下直接完成,而无需边界框 proposal 或像素聚类?
- RQ2将实例位置和对象大小编码到一个实例类别中,是否能够实现精确的逐像素掩码预测?
- RQ3网格大小、FPN 层数和 CoordConv 对分割精度有何影响?
- RQ4SOLO 与 COCO 上的前沿两阶段和单阶段方法相比如何?
- RQ5解耦 SOLO 的潜在效率提升是多少?
主要发现
- SOLO 在 ResNet-101-FPN 下实现 37.8% 的掩码 AP,与 Mask R-CNN(表中 37.8% 对比;注:表中值经调整)相当。
- SOLO 超越了先前的单发方法,在 COCO test-dev 上接近或达到两阶段方法。
- 解耦 SOLO(X 和 Y 分支)在 DCN-101-FPN 下实现 40.5 AP,并降低内存使用。
- CoordConv 相较于标准卷积显著提升 AP(提升约 3.6 点左右)。
- Dice 损失在测试的损失函数中提供最佳的掩码 AP 与训练稳定性。
- 通过更大的网格和多层级 FPN,SOLO 在 COCO-val 达到 35.8 AP,展示对不同对象大小的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。