Skip to main content
QUICK REVIEW

[论文解读] Mask Matching Transformer for Few-Shot Segmentation

Siyu Jiao, Gengwei Zhang|arXiv (Cornell University)|Dec 5, 2022
Advanced Neural Network Applications被引用 20
一句话总结

MM-Former 通过先为查询图像生成与类别无关的掩码提议,然后在掩码层级进行少对少的匹配与支撑以产生最终分割,从而实现更低的训练复杂度和更强的跨数据泛化能力。

ABSTRACT

In this paper, we aim to tackle the challenging few-shot segmentation task from a new perspective. Typical methods follow the paradigm to firstly learn prototypical features from support images and then match query features in pixel-level to obtain segmentation results. However, to obtain satisfactory segments, such a paradigm needs to couple the learning of the matching operations with heavy segmentation modules, limiting the flexibility of design and increasing the learning complexity. To alleviate this issue, we propose Mask Matching Transformer (MM-Former), a new paradigm for the few-shot segmentation task. Specifically, MM-Former first uses a class-agnostic segmenter to decompose the query image into multiple segment proposals. Then, a simple matching mechanism is applied to merge the related segment proposals into the final mask guided by the support images. The advantages of our MM-Former are two-fold. First, the MM-Former follows the paradigm of decompose first and then blend, allowing our method to benefit from the advanced potential objects segmenter to produce high-quality mask proposals for query images. Second, the mission of prototypical features is relaxed to learn coefficients to fuse correct ones within a proposal pool, making the MM-Former be well generalized to complex scenarios or cases. We conduct extensive experiments on the popular COCO-$20^i$ and Pascal-$5^i$ benchmarks. Competitive results well demonstrate the effectiveness and the generalization ability of our MM-Former.

研究动机与目标

  • 解决现有少样分割方法中联合学习的高复杂性和灵活性不足问题。
  • 提出一个两阶段框架,将分割(POS)与匹配(MM)解耦,以实现简单而有效的掩码层级匹配。
  • 利用类别无关的掩码提议生成器来提升查询掩码质量并提高跨数据集的鲁棒性。
  • 通过以掩码为焦点的范式改善数据集间的泛化与可迁移性(如从 COCO 到 Pascal)。

提出的方法

  • Stage 1: Potential Objects Segmenter (POS) 使用一个 transformer 解码器(受 Mask2Former 启发),从固定骨干提取的特征中为查询图像预测多组类别无关的掩码提议。
  • Stage 2: Mask Matching Module (MM) 通过一个特征对齐块(Self-Alignment 与 Cross-Alignment)对查询和支撑特征进行对齐,然后执行可学习的掩码匹配,将掩码提议融合成最终分割。
  • Feature Alignment Block 包含一个自对齐的非参数通道级归一化,以及使用共享 transformer 的 Cross-Alignment 块来对齐支撑与查询特征。
  • 通过对齐后的特征进行掩码全局平均池化来创建原型;支撑原型与查询掩码提议之间的余弦相似度引导一个可学习的匹配块,将掩码融合。
  • POS 提议使用 Dice 损失(通过匈牙利匹配),MM 使用 Dice 损失加上跨对齐对比损失;两阶段训练策略将 POS 训练与 MM 训练分离,以降低耦合和训练复杂性。

实验结果

研究问题

  • RQ1解耦分割与匹配是否能提升少样分割的性能与训练效率?
  • RQ2两阶段的 POS+MM 框架在掩码层级(少对少)匹配下,是否比传统的少样分割、少对多方法具有更好的跨数据泛化性?
  • RQ3特征对齐与可学习掩码匹配在提升少样设定下的分割质量和鲁棒性方面有何贡献?
  • RQ4在大数据集(COCO)训练、在较小数据集(Pascal)测试,与直接在 Pascal 上训练相比,MM-Former 的迁移性如何?

主要发现

  • MM-Former 在 COCO-20i 上达到与最先进方法相当的结果,并展现出从 COCO 到 Pascal-5i 的强迁移性。
  • 一种两阶段训练策略(先 POS 再 MM)显著提升了性能和训练效率,相较于端到端联合训练。
  • 特征对齐(自对齐与跨对齐)对性能提升有显著作用,且可学习的跨对齐对提升是关键。
  • 使用一个可学习的掩码匹配块来融合多个掩码提议,优于基于简单余弦相似度的选择,从而获得更高的平均 IoU。
  • 在 POS 中增大掩码提议数量可达到更高的上限结果(oracle 潜力),并且在新的掩码匹配范式下仍有进一步改进空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。