[论文解读] SG-One: Similarity Guidance Network for One-Shot Semantic Segmentation
SG-One 引入了一个统一网络,使用掩蔽平均池化来创建以对象为中心的引导向量,并通过余弦相似性映射来引导对从未见类别进行的一次性语义分割,在 PASCAL-5i 上实现了最先进的平均 IoU。
One-shot image semantic segmentation poses a challenging task of recognizing the object regions from unseen categories with only one annotated example as supervision. In this paper, we propose a simple yet effective Similarity Guidance network to tackle the One-shot (SG-One) segmentation problem. We aim at predicting the segmentation mask of a query image with the reference to one densely labeled support image of the same category. To obtain the robust representative feature of the support image, we firstly adopt a masked average pooling strategy for producing the guidance features by only taking the pixels belonging to the support image into account. We then leverage the cosine similarity to build the relationship between the guidance features and features of pixels from the query image. In this way, the possibilities embedded in the produced similarity maps can be adapted to guide the process of segmenting objects. Furthermore, our SG-One is a unified framework which can efficiently process both support and query images within one network and be learned in an end-to-end manner. We conduct extensive experiments on Pascal VOC 2012. In particular, our SGOne achieves the mIoU score of 46.3%, surpassing the baseline methods.
研究动机与目标
- 促使一次性语义分割从单个标注示例中分割出未见类别。
- 在不改变网络输入的情况下,发展一个鲁棒的 support-object 表征。
- 利用逐像素的余弦相似度来引导查询图像的分割。
- 将支持与查询处理统一在一个端到端可训练的网络中。
- 展示在 PASCAL-5i 上相对于先前方法的性能提升。
提出的方法
- 使用共享干网络从 support 与 query 图像提取高级特征。
- 通过对 support 掩模进行掩蔽平均池化来获得鲁棒的对象表示。
- 计算 support 表征与 query 特征之间的逐像素余弦相似度,以形成相似性引导图。
- 用查询特征乘以相似性引导图来将分割导向目标对象。
- 使用一个将引导信息和查询特征输入的分割分支,在端到端框架中预测最终掩模。
- 使用交叉熵损失进行训练;实现一次性测试而无需微调。
实验结果
研究问题
- RQ1一个带有相似性引导注意力的统一网络是否可以改进未见类别的一次性分割?
- RQ2掩蔽平均池化是否比掩模或拼接方法提供更好的对象表示?
- RQ3余弦相似性引导对 PASCAL-5i 折中的分割性能有何影响?
- RQ4在无需重新训练的情况下,该方法是否对多类别查询图像和少量示例扩展(K-shot)具有鲁棒性?
主要发现
- SG-One 在一次性分割上的 PASCAL-5i 平均 IoU 达到 46.3%,超过基线方法。
- 对 support 掩模进行掩蔽平均池化提供的代表向量优于掩模或拼接方法。
- 五-shot 结果(平均 support 向量)达到 47.1% 的平均 IoU,略高于一-shot,但提升幅度不大。
- 与 OSLSM 和 co-FCN 相比,SG-One 在四个 PASCAL-5i 折中均显示显著改进。
- SG-One 在多类别查询场景中表现出鲁棒性,在多类别设置中优于基线 co-FCN。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。