QUICK REVIEW

[论文解读] Instance-sensitive Fully Convolutional Networks

Jifeng Dai, Kaiming He|arXiv (Cornell University)|Mar 29, 2016

Advanced Neural Network Applications参考文献 1被引用 62

一句话总结

本文提出InstanceFCN，一种全卷积网络，通过生成一组与实例相关的得分图来生成实例级别的分割提议，每张得分图编码像素对目标实例的相对位置分类信息。与依赖高维掩码层的先前方法不同，该方法利用局部图像一致性，避免了依赖分辨率的层，从而在PASCAL VOC和MS COCO基准上实现了最先进性能，mAP和召回率指标均具竞争力。

ABSTRACT

Fully convolutional networks (FCNs) have been proven very successful for semantic segmentation, but the FCN outputs are unaware of object instances. In this paper, we develop FCNs that are capable of proposing instance-level segment candidates. In contrast to the previous FCN that generates one score map, our FCN is designed to compute a small set of instance-sensitive score maps, each of which is the outcome of a pixel-wise classifier of a relative position to instances. On top of these instance-sensitive score maps, a simple assembling module is able to output instance candidate at each position. In contrast to the recent DeepMask method for segmenting instances, our method does not have any high-dimensional layer related to the mask resolution, but instead exploits image local coherence for estimating instances. We present competitive results of instance segment proposal on both PASCAL VOC and MS COCO.

研究动机与目标

解决标准全卷积网络在生成实例级别分割提议而非仅语义分割方面的局限性。
消除对掩码分辨率依赖的高维全连接层，此类层会阻碍泛化并增加过拟合风险。
开发一种全卷积、端到端的框架，通过相对位置分类生成实例候选。
在PASCAL VOC和MS COCO等标准基准上提升实例提议质量，且不依赖外部提议方法。

提出的方法

该方法计算一组与实例相关的得分图，每张得分图对应于相对于目标实例的相对位置（例如，3×3网格）。
得分图中每个像素充当其与目标实例空间关系的低维分类器，如“右上角”或“中心”。
一个简单的组装模块在滑动窗口内结合所有得分图的预测，生成完整的实例掩码提议。
该网络利用局部图像一致性来估计实例形状，而无需依赖掩码分辨率的高维层。
通过仅使用卷积操作，避免了m²-d的全连接层，从而支持端到端训练和推理。
模型通过在相对位置预测上使用像素级交叉熵损失进行端到端训练，可与下游分类器结合用于语义实例分割。

实验结果

研究问题

RQ1全卷积网络能否在不依赖高维掩码层的情况下生成实例级别的分割提议？
RQ2在多个得分图上进行相对位置分类，相比标准FCN或DeepMask，如何提升实例提议质量？
RQ3能否有效利用局部图像一致性来估计目标实例，而无需显式依赖掩码分辨率？
RQ4在标准基准上，该方法与MCG、DeepMask和MNC等最先进提议方法相比，在准确率和效率方面表现如何？

主要发现

在PASCAL VOC 2012上，InstanceFCN在10个提议下达到AR@10为16.6%，优于DeepMask（12.6%）和MNC（13.5%）。
在MS COCO上，使用100个提议时，InstanceFCN达到AR@100为31.7%，超过DeepMaskZoom（26.1%）和MNC（29.9%）。
在MS COCO上，InstanceFCN在所有IoU阈值下的AR@1000达到39.2%，高于DeepMaskZoom（36.6%）和MNC（37.8%）。
对于实例语义分割，InstanceFCN在PASCAL VOC上达到43.0% mAP@0.7，位列所有对比方法中的第二名，比最接近的竞争对手高1.5%。
该方法在小数据集（如PASCAL VOC）上表现出强泛化能力，由于无高维层，过拟合风险较低。
在MS COCO上的可视化对比显示，InstanceFCN检测到的真正实例数量多于DeepMask，尤其在小物体或重叠物体上表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。