[论文解读] Prototype Mixture Models for Few-shot Semantic Segmentation
本文提出原型混合模型(PMMs),一种新颖的少样本语义分割方法,通过期望最大化(EM)算法从支持图像中学习多个原型,捕捉多样的空间与通道语义。通过将PMMs在双路匹配与卷积机制中同时作为表征与分类器使用,该方法显著提升了分割精度,在MS-COCO 5-shot分割任务上实现最高5.82%的绝对性能提升,且计算开销极低。
Few-shot segmentation is challenging because objects within the support and query images could significantly differ in appearance and pose. Using a single prototype acquired directly from the support image to segment the query image causes semantic ambiguity. In this paper, we propose prototype mixture models (PMMs), which correlate diverse image regions with multiple prototypes to enforce the prototype-based semantic representation. Estimated by an Expectation-Maximization algorithm, PMMs incorporate rich channel-wised and spatial semantics from limited support images. Utilized as representations as well as classifiers, PMMs fully leverage the semantics to activate objects in the query image while depressing background regions in a duplex manner. Extensive experiments on Pascal VOC and MS-COCO datasets show that PMMs significantly improve upon state-of-the-arts. Particularly, PMMs improve 5-shot segmentation performance on MS-COCO by up to 5.82\% with only a moderate cost for model size and inference speed.
研究动机与目标
- 为解决单原型模型因全局平均池化导致的空间布局信息丢失所引发的语义模糊性问题。
- 通过从有限的支持图像中学习多个原型,建模多样的前景区域与背景语义,从而改善特征表征能力。
- 开发一种即插即用的方法,增强度量学习框架,无需后处理或架构重构。
- 在PASCAL VOC与MS-COCO基准上实现最先进性能,同时仅带来适度的模型参数量与推理成本增加。
提出的方法
- PMMs利用期望最大化(EM)算法,从每个支持图像中估计多个原型,将每个掩码像素视为正样本。
- EM算法建模空间与通道维度的特征分布,通过原型混合表示不同的物体部件与背景区域。
- 推理阶段,PMMs以双路方式使用:(1) P-Match将查询特征与原型匹配,以激活相关通道;(2) P-Conv执行逐元素乘法,生成概率图。
- 该方法可无缝集成至度量学习框架中,采用双分支结构(支持分支与查询分支),与现有少样本分割模型保持兼容。
- 提出基于残差连接的RPMMs变体,通过堆叠PMM模块与跳跃连接进一步提升性能。
- 该方法轻量化,仅增加19.5M参数,且保持高推理速度(在2080Ti上达26 FPS)。
实验结果
研究问题
- RQ1与单个全局原型相比,通过EM算法学习的多个原型是否能提升少样本分割中的语义表征能力?
- RQ2通过原型混合建模多样的物体部件与背景区域,对少样本基准的分割精度有何影响?
- RQ3PMMs的双路使用方式——同时作为表征与分类器——在增强特征激活与抑制背景方面有多大的提升效果?
- RQ4该方法在不同少样本设置(1-shot与5-shot)及不同数据集(PASCAL VOC与MS-COCO)上的可扩展性如何?
- RQ5在使用PMMs时,模型复杂度、推理速度与性能增益之间的权衡关系如何?
主要发现
- 在MS-COCO 5-shot基准上,PMMs相比最先进方法实现5.82%的绝对性能提升,RPMMs相较基线方法提升7.66%。
- 在MS-COCO的1-shot设置中,RPMMs相较基线方法提升4.47%,相较PANet提升9.68%,展现出强大的泛化能力。
- 在PASCAL VOC数据集上,使用ResNet50主干网络时,RPMMs在1-shot设置下相较最先进方法提升2.38%,在5-shot设置下提升1.50%。
- 最优原型数量为K=3,因在有限的支持样本上过拟合,性能在K>3后趋于平缓或下降。
- Von Mises-Fisher(VMF)核在原型估计中优于高斯核,表明余弦相似性更能有效捕捉特征的角关系。
- 尽管增加了19.5M参数,模型仍保持高推理速度(在2080Ti上达26 FPS),使用RPMMs时仅略有下降至20 FPS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。