[论文解读] Deep Watershed Transform for Instance Segmentation
本文提出了一种新颖的端到端深度卷积神经网络,通过学习一种结构化的能量图来利用分水岭变换,其中物体实例对应于不同的能量洼地。通过应用单个能量水平切分,该方法可直接提取实例分割结果,无需复杂的后处理,相较于先前最先进方法,在Cityscapes基准上的实例分割性能提升超过200%。
Most contemporary approaches to instance segmentation use complex pipelines involving conditional random fields, recurrent neural networks, object proposals, or template matching schemes. In our paper, we present a simple yet powerful end-to-end convolutional neural network to tackle this task. Our approach combines intuitions from the classical watershed transform and modern deep learning to produce an energy map of the image where object instances are unambiguously represented as basins in the energy map. We then perform a cut at a single energy level to directly yield connected components corresponding to object instances. Our model more than doubles the performance of the state-of-the-art on the challenging Cityscapes Instance Level Segmentation task.
研究动机与目标
- 开发一种简单、端到端的深度学习方法用于实例分割,避免涉及RNN、CRF或物体提议的复杂流水线。
- 将经典分水岭变换原理与现代深度学习相结合,通过学习的能量景观实现明确的实例分割。
- 在具有挑战性的Cityscapes实例分割基准上实现最先进性能。
- 通过用单层切分操作替代RNN等迭代方法,实现实时、恒定时间的推理。
提出的方法
- 该方法使用两阶段网络学习深度能量图:方向网络(DN)用于预测梯度方向,分水岭变换网络(WTN)用于预测能量值。
- 能量图的设计使得每个物体实例形成独立的洼地,且所有分隔脊线处于相同的能量水平,从而可通过单个阈值切分直接提取实例。
- 模型在合成数据集上进行预训练,采用一种新颖的损失函数以确保正确的梯度方向和能量水平一致性。
- 通过结合L1损失(用于能量图)和自定义损失进行端到端微调,以促进正确实例边界的形成。
- 使用语义分割作为软门控来引导实例预测,其中PSPNet或LRR作为语义主干网络。
- 通过语义分割的softmax概率估计实例置信度分数,以对预测结果进行排序并用于AP计算。
实验结果
研究问题
- RQ1深度学习模型能否有效学习一种结构化的能量景观,通过分水岭原理直接编码实例边界?
- RQ2将经典形态学分组与深度特征结合,是否能相比复杂流水线方法实现更优的实例分割性能?
- RQ3单个能量水平切分能否替代迭代或基于提议的优化策略,同时保持高精度和快速推理?
- RQ4语义分割的质量如何影响所提方法的最终实例分割性能?
主要发现
- 所提方法在Cityscapes实例分割基准上的性能超过先前最先进方法的两倍以上。
- 该模型显著优于涉及RNN、CRF或物体提议的复杂流水线方法,证明了基于分水岭的端到端方法的有效性。
- 消融研究显示,中间训练目标(方向预测)是有效的,因为微调后的DN保持了较强的定向一致性。
- 使用更优的语义分割(如LRR而非PSPNet)可提升实例分割性能,表明其对语义质量存在强依赖性。
- 使用oracle IoU进行置信度排序可使性能提升6.34%,凸显了排序策略对AP分数的影响,即使实际实例质量未变。
- 失败案例包括因遮挡导致的物体被分割开,以及复杂场景中的过分割现象,表明需要与自上而下的推理机制结合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。