QUICK REVIEW

[论文解读] Part-aware Prototype Network for Few-shot Semantic Segmentation

Yongfei Liu, Xiangyi Zhang|arXiv (Cornell University)|Jul 13, 2020

Domain Adaptation and Few-Shot Learning参考文献 36被引用 26

一句话总结

本文提出部分感知原型网络（PPNet），一种新颖的少样本语义分割框架，通过将整体类别原型分解为部分感知表示，以捕捉细粒度物体特征。通过利用图神经网络对未标注数据进行原型优化，PPNet在PASCAL-5i和COCO-20i基准上实现了最先进性能，在单向和多向设置下均显著优于先前方法。

ABSTRACT

Few-shot semantic segmentation aims to learn to segment new object classes with only a few annotated examples, which has a wide range of real-world applications. Most existing methods either focus on the restrictive setting of one-way few-shot segmentation or suffer from incomplete coverage of object regions. In this paper, we propose a novel few-shot semantic segmentation framework based on the prototype representation. Our key idea is to decompose the holistic class representation into a set of part-aware prototypes, capable of capturing diverse and fine-grained object features. In addition, we propose to leverage unlabeled data to enrich our part-aware prototypes, resulting in better modeling of intra-class variations of semantic objects. We develop a novel graph neural network model to generate and enhance the proposed part-aware prototypes based on labeled and unlabeled images. Extensive experimental evaluations on two benchmarks show that our method outperforms the prior art with a sizable margin.

研究动机与目标

解决现有少样本语义分割方法依赖整体原型和小规模标注支持集的局限性。
通过将类别表征分解为部分感知原型，提升空间覆盖范围与特征多样性。
通过在原型学习过程中引入未标注数据，更有效地建模类内差异。
开发一个统一框架，使其在单向和多向少样本语义分割设置中均具有良好的泛化能力。
提出一种基于图神经网络的新型半监督少样本语义分割范式，用于原型增强。

提出的方法

该方法采用三模块架构：嵌入网络、部分感知原型生成网络和掩码生成网络。
通过在标注和未标注的支持图像上使用图注意力网络（GAT）对对象特征进行聚类与优化，生成部分感知原型。
原型生成过程包括两个步骤：(1) 将特征聚类为候选原型，(2) 利用GAT在支持样本之间进行消息传递，对原型进行优化。
提出一种新颖的匹配策略，融合来自多个部分感知原型的得分图，以预测最终分割掩码。
通过元学习进行训练，并采用增强损失函数，利用原始语义类别以促进更好的特征学习。
将未标注图像整合到支持集中，以丰富原型表征并提升泛化能力。

实验结果

研究问题

RQ1与整体原型相比，部分感知原型是否能通过捕捉细粒度物体特征来提升分割精度？
RQ2在少样本分割中，整合未标注数据在增强原型表征方面的有效性如何？
RQ3图神经网络是否能有效利用标注和未标注的支持数据对部分感知原型进行优化？
RQ4所提出方法在单向和多向少样本语义分割设置中是否具有良好的泛化能力？
RQ5在最佳性能下，超参数（如部分数量和未标注样本数量）的最优配置是什么？

主要发现

在COCO-20i基准上，PPNet在1-way 1-shot设置下达到36.48%的平均IoU，显著优于此前最先进方法。
在COCO-20i的5-shot设置下，PPNet达到38.53%的平均IoU，表明其在更高样本设置下也具备强大泛化能力。
消融实验表明，当所有组件均包含时，部分感知原型（PAP）将平均IoU从22.95%提升至27.16%。
引入语义分支（SEM）和未标注数据（UD）显著提升了收敛速度与最终性能，基于GNN的优化贡献尤为显著。
最优部分原型数量为5，最优未标注图像数量为6，且当β = 0.5时，语义损失取得最佳结果。
PPNet在PASCAL-5i和COCO-20i的所有划分上均达到最先进性能，验证了其在单向和多向少样本语义分割中的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。