QUICK REVIEW

[论文解读] InstanceCut: from Edges to Instances with MultiCut

Alexander Kirillov, Evgeny Levinkov|arXiv (Cornell University)|Nov 24, 2016

Advanced Neural Network Applications参考文献 48被引用 23

一句话总结

InstanceCut 提出了一种新颖的实例感知语义分割框架，结合了卷积神经网络（CNN）的实例无关语义分割与通过 MultiCut 优化实现的实例感知边缘检测。尽管结构简单，该方法在 CityScapes 数据集上实现了最先进性能，验证集上达到 15.8 AP，测试集上达到 13.0 AP，优于所有已发表的方法。

ABSTRACT

This work addresses the task of instance-aware semantic segmentation. Our key motivation is to design a simple method with a new modelling-paradigm, which therefore has a different trade-off between advantages and disadvantages compared to known approaches. Our approach, we term InstanceCut, represents the problem by two output modalities: (i) an instance-agnostic semantic segmentation and (ii) all instance-boundaries. The former is computed from a standard convolutional neural network for semantic segmentation, and the latter is derived from a new instance-aware edge detection model. To reason globally about the optimal partitioning of an image into instances, we combine these two modalities into a novel MultiCut formulation. We evaluate our approach on the challenging CityScapes dataset. Despite the conceptual simplicity of our approach, we achieve the best result among all published methods, and perform particularly well for rare object classes.

研究动机与目标

为解决现有基于 CNN 的实例分割方法的局限性，提出一种新型建模范式。
在无需唯一实例标签或复杂多损失架构的前提下，实现精确的实例分割。
通过将实例边界检测与全局实例标签分配解耦，有效处理稀有物体类别。
设计一种模块化框架，兼容任意预训练的语义分割网络。
通过新颖的 MultiCut 公式，利用全局推理对实例边界和语义标签进行优化，实现高性能。

提出的方法

该方法使用标准的全卷积网络（FCN）生成每个像素的实例无关语义分割结果，输出为对数概率。
另一个独立的 CNN 被训练以预测相邻像素之间的实例感知边缘概率，指示潜在的实例边界。
将两个输出——语义标签与边界得分——整合到一种新颖的 MultiCut 公式中，以优化全局一致的实例划分。
MultiCut 公式确保由检测到的边界所包围的每个连通区域对应一个单一实例，且内部语义类别标签保持一致。
优化过程使用参数化的代价函数，包含两类边界权重：β_small 用于小物体，β_big 用于大物体（如卡车、公共汽车），通过交叉验证进行调优。
最终的实例分割通过求解 MultiCut 问题获得，该问题将图像划分为由检测到的边界和语义标签定义的连通区域。

实验结果

研究问题

RQ1一个结合语义分割与边缘检测的简单、模块化框架，是否能超越复杂的基于 CNN 的实例分割架构？
RQ2通过 MultiCut 进行全局优化，是否能有效生成一致且连通的实例片段，而无需对每个实例进行标注？
RQ3将实例边界检测与全局实例标签分配解耦，是否能提升在稀有物体类别上的性能？
RQ4该方法是否能在不重新训练的情况下泛化到不同的语义分割网络？
RQ5与端到端深度学习方法相比，所提出的 MultiCut 公式在准确性和鲁棒性方面表现如何？

主要发现

当使用 LRR-4x 语义分割网络时，InstanceCut 在 CityScapes 验证集上达到 15.8 AP，优于所有已发表方法。
在测试集上，该方法达到 13.0 AP、27.9 AP50%、22.1 AP100m 和 26.1 AP50m，所有指标均为已发表结果中的最高值。
由于实例边界与语义标签采用解耦训练，该方法在稀有物体类别上表现尤为出色。
采用双类别边界权重方案（β_small 与 β_big）提升了性能，并将参数空间减少至三维。
该框架具有模块化特性，兼容任意预训练的语义分割网络，这一点通过从 Dilation10 切换到 LRR-4x 时性能提升得到验证。
定性结果表明，即使在路灯柱等障碍物分隔的情况下，该方法仍能正确分割同一类别的多个实例，如汽车和公共汽车。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。