QUICK REVIEW

[论文解读] Deep Interactive Object Selection

Ning Xu, Brian Price|arXiv (Cornell University)|Mar 13, 2016

Advanced Image and Video Retrieval Techniques参考文献 19被引用 42

一句话总结

该论文提出了一种基于深度学习的交互式目标选择方法，通过将正样本点击和负样本点击转换为欧几里得距离图，与RGB图像融合，训练全卷积网络（FCN-8s），从而将用户交互减少到仅几次点击。该模型利用深度特征学习提升对目标的感知能力，并结合FCN输出与图割优化进行边界细化，在已见和未见目标类别上均实现了最先进性能，且用户输入极少。

ABSTRACT

Interactive object selection is a very important research problem and has many applications. Previous algorithms require substantial user interactions to estimate the foreground and background distributions. In this paper, we present a novel deep learning based algorithm which has a much better understanding of objectness and thus can reduce user interactions to just a few clicks. Our algorithm transforms user provided positive and negative clicks into two Euclidean distance maps which are then concatenated with the RGB channels of images to compose (image, user interactions) pairs. We generate many of such pairs by combining several random sampling strategies to model user click patterns and use them to fine tune deep Fully Convolutional Networks (FCNs). Finally the output probability maps of our FCN 8s model is integrated with graph cut optimization to refine the boundary segments. Our model is trained on the PASCAL segmentation dataset and evaluated on other datasets with different object classes. Experimental results on both seen and unseen objects clearly demonstrate that our algorithm has a good generalization ability and is superior to all existing interactive object selection approaches.

研究动机与目标

减少图像中准确目标选择所需的用户交互次数。
通过利用深度特征学习而非手工设计的低级特征，提升对未见目标类别的泛化能力。
将用户提供的点击有效整合到深度学习框架中，用于交互式分割。
在高端GPU上实现实时性能，同时保持高分割精度。

提出的方法

将用户提供的正样本点击和负样本点击分别转换为独立的欧几里得距离图，以表示前景和背景线索。
将距离图与RGB图像通道拼接，形成（图像，用户交互）的训练样本对。
使用随机采样策略生成大量合成训练样本对，以模拟多样的用户点击模式。
在这些合成的（图像，交互）样本对上微调预训练的FCN-8s模型，以学习特定目标的分割。
利用图割优化对FCN-8s输出的概率图进行细化，以改善边界定位。
在PASCAL VOC数据集上进行训练，并在MS COCO和Fashionista数据集上进行零样本泛化评估。

实验结果

研究问题

RQ1在合成的（图像，点击）样本对上进行训练的深度学习模型，能否在极少用户交互下泛化到未见目标类别？
RQ2与传统的基于低级特征的方法相比，将用户点击作为距离图输入在多大程度上提升了分割精度？
RQ3基于深度学习的交互式分割系统在保持高精度的前提下，能在多大程度上减少所需点击次数？
RQ4将FCN输出与图割优化结合，是否能比单独使用FCN获得更精确的边界？

主要发现

在MS COCO未见类别上，该方法仅使用一次正样本点击即实现了48.35%的平均交并比（mIoU），显著优于FCN和CRF-RNN。
在PASCAL VOC数据集上，该方法在未见类别上实现了42.94%的mIoU，展现出强大的零样本泛化能力。
该模型仅需一到三次点击即可生成高质量分割结果，通常与需要大量用户输入的方法表现相当或更优。
图割优化显著提升了边界定位精度，视觉对比显示优化后的输出具有更清晰、更准确的目标轮廓。
该系统在高端GPU上实现了实时性能，适用于交互式应用。
尽管模型仅在完整目标上进行训练，该方法仍能成功分割目标部件（如衣物），表明其对用户意图和目标语义有深刻理解。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。