Skip to main content
QUICK REVIEW

[论文解读] Semantic Instance Segmentation with a Discriminative Loss Function

Bert De Brabandere, Davy Neven|arXiv (Cornell University)|Aug 8, 2017
Advanced Neural Network Applications参考文献 38被引用 442
一句话总结

它提出了一种像素级判别损失,将像素映射到嵌入向量,使同一实例的像素聚簇在一起、不同实例分离,从而在无需提议或递归的情况下实现简单的实例分割后处理。

ABSTRACT

Semantic instance segmentation remains a challenging task. In this work we propose to tackle the problem with a discriminative loss function, operating at the pixel level, that encourages a convolutional network to produce a representation of the image that can easily be clustered into instances with a simple post-processing step. The loss function encourages the network to map each pixel to a point in feature space so that pixels belonging to the same instance lie close together while different instances are separated by a wide margin. Our approach of combining an off-the-shelf network with a principled loss function inspired by a metric learning objective is conceptually simple and distinct from recent efforts in instance segmentation. In contrast to previous works, our method does not rely on object proposals or recurrent mechanisms. A key contribution of our work is to demonstrate that such a simple setup without bells and whistles is effective and can perform on par with more complex methods. Moreover, we show that it does not suffer from some of the limitations of the popular detect-and-segment approaches. We achieve competitive performance on the Cityscapes and CVPPP leaf segmentation benchmarks.

研究动机与目标

  • 激发并解决在没有对象提议或递归模型的情况下进行语义实例分割的挑战。
  • 引入一种判别式、受度量学习启发的损失,使像素嵌入按实例聚簇。
  • 展示使用标准分割骨干网络结合新损失也能获得有竞争力的表现。
  • 在 Cityscapes 实例级标注和 CVPPP 叶片分割基准上证明其有效性。

提出的方法

  • 通过分割网络将每个像素映射到一个 n 维嵌入。
  • 使用包含三个项的判别损失:簇内方差(将嵌入拉向簇中心)、簇间距离(推动簇中心彼此分离)以及正则化项。
  • 对方差和距离项采用基于铰链的(边界/间隔)损失,以允许局部流形表示。
  • 推理阶段,通过对簇中心周围的阈值化或受均值漂移启发的细化来对嵌入进行聚类,以获得离散的实例。
  • 使用现成的架构(ResNet-38)进行训练,仅调整损失及少量后处理步骤。
  • 与基于提议的方法和递归方法进行对比,以突出其简洁性与有效性。

实验结果

研究问题

  • RQ1像素级判别损失是否能够在没有提议或递归结构的情况下实现准确的实例分割?
  • RQ2对学习得到的嵌入进行基于聚类的后处理,在 Cityscapes 和 CVPPP 等具有挑战性的基准上表现如何?
  • RQ3语义分割质量和聚类策略对整体实例分割性能的影响是什么?
  • RQ4在准确性和复杂性方面,所提方法与现有最先进的方法相比如何?

主要发现

  • 该判别损失在 Cityscapes 和 CVPPP 上实现了具有竞争力的实例分割效果,赶上了最先进的非提议方法。
  • 在 CVPPP 上,该方法实现了 84.2 的 SBD 得分,接近最先进的 84.9,同时使用更简单的流程。
  • 在 Cityscapes 上,该方法实现了具有竞争力的 AP 指标,并在不依赖对象提议的情况下对遮挡和复杂场景表现出鲁棒性。
  • 性能强烈受语义分割质量和聚类策略的影响,且在消融实验中,使用真实标签组件能带来显著提升。
  • 该方法受益于简单的后处理步骤(阈值化/均值漂移),而非复杂的 CRF 或递归解码器,从而实现高效推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。