[论文解读] K-Net: Towards Unified Image Segmentation
K-Net 将语义、实例和全景分割统一在一个可学习的分组内核中,该内核对每张图像动态更新,通过二分匹配端到端训练,在单模型上达到最先进的性能,同时不需要 NMS 和框。
Semantic, instance, and panoptic segmentations have been addressed using different and specialized frameworks despite their underlying connections. This paper presents a unified, simple, and effective framework for these essentially similar tasks. The framework, named K-Net, segments both instances and semantic categories consistently by a group of learnable kernels, where each kernel is responsible for generating a mask for either a potential instance or a stuff class. To remedy the difficulties of distinguishing various instances, we propose a kernel update strategy that enables each kernel dynamic and conditional on its meaningful group in the input image. K-Net can be trained in an end-to-end manner with bipartite matching, and its training and inference are naturally NMS-free and box-free. Without bells and whistles, K-Net surpasses all previous published state-of-the-art single-model results of panoptic segmentation on MS COCO test-dev split and semantic segmentation on ADE20K val split with 55.2% PQ and 54.3% mIoU, respectively. Its instance segmentation performance is also on par with Cascade Mask R-CNN on MS COCO with 60%-90% faster inference speeds. Code and models will be released at https://github.com/ZwwWayne/K-Net/.
研究动机与目标
- 在一个通用的基于内核的框架下,推动实现语义、实例和全景分割的统一。
- 提出一个动态、面向分组的内核更新机制,以处理不同对象实例的变化。
- 使用匈牙利算法端到端训练实例内核,不依赖边框或 NMS。
- 展示统一的基于内核的方法在标准基准上提升全景、实例和语义分割性能。
提出的方法
- 将分割目标表示为固定集合的 N 个内核中的一个,每个内核为潜在实例或语义类别预测一个掩码。
- 引入一个内核更新头,通过从当前预测中组装的分组特征,对内核进行形式和内容自适应更新。
- 在 S 轮中对内核进行自适应特征与内核交互并使用门控来细化内核和掩码。
- 在内核之间应用多头注意力,以实现上下文交互,并从更新后的内核中导出最终掩码。
- 使用掩码驱动的端到端匈牙利分配来训练实例内核(没有框、没有 NMS)。
- 将同一内核框架应用于全景或语义分割,只需按需组合实例内核和语义内核。
实验结果
研究问题
- RQ1是否可以在单一基于内核的框架下解决语义、实例和全景分割?
- RQ2如何使内核对内容自适应,以可靠地区分不同形状和尺度的实例?
- RQ3在不依赖框或 NMS 的情况下,端到端地用二分(匈牙利)分配训练实例内核是否可行?
- RQ4在 COCO 上使用 K-Net 时,对全景/实例和 ADE20K 的语义分割会带来哪些性能提升?
主要发现
| 框架 | 骨干网 | 无框 | 无 NMS | 训练轮数 | PQ | PQ Th | PQ St |
|---|---|---|---|---|---|---|---|
| Panoptic-DeepLab | Xception-71 | >~1000 | 39.7 | 43.9 | 33.2 | ||
| Panoptic FPN | R50-FPN | 36 | 41.5 | 48.5 | 31.1 | ||
| SOLOv2 | R50-FPN | ✓ | 36 | 42.1 | 49.6 | 30.7 | |
| DETR | R50 | ✓ | 300+25 | 43.4 | 48.2 | 36.3 | |
| Unifying | R50-FPN | >27 | 43.4 | 48.6 | 35.5 | ||
| Panoptic FCN | R50-FPN | 36 | 43.6 | 49.3 | 35.0 | ||
| K-Net | R50-FPN | ✓ | ✓ | 36 | 47.1 | 51.7 | 40.3 |
| K-Net | R101-FPN | ✓ | ✓ | 36 | 49.6 | 55.1 | 41.4 |
| R101-FPN-DCN | ✓ | ✓ | 36 | 48.3 | 54.0 | 39.7 | |
| Swin-L | ✓ | ✓ | 36 | 54.6 | 60.2 | 46.0 |
- 在 COCO val 上实现单模型最先进的全景分割,PQ 为 47.1(R50-FPN),Swin-L 为 54.6,超越先前方法。
- 在 ADE20K val 上的语义分割达到 54.3 mIoU,与基线架构结合时显示出强跨任务收益。
- 实例分割结果与 Cascade Mask R-CNN 相竞争,同时无框、无 NMS,且推理速度显著更快(如 K-Net-N256 在 COCO 上 19.8 FPS vs Cascade 的 10.3 FPS)。
- 带分组特征组装和自适应门控的内核更新头显著提升 AP(例如表 4 显示 AP 从基线 18.2 提升到 34.7,组件齐全)。
- 100 个实例内核对 COCO 的性能已足够,某一轮更新后性能趋于饱和(约 3 轮)。
- K-Net 能以更少的训练周期(36)超越一些基于框和基于内核的基线,并在中等计算下提供稳健性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。