[论文解读] Learning to Fuse Things and Stuff
本文介绍了 TASCNet,一种用于全景分割的端到端网络,通过 Things and Stuff Consistency (TASC) 约束融合实例(things)和语义(stuff)预测,在统一模型下达到具有竞争力的结果。
We propose an end-to-end learning approach for panoptic segmentation, a novel task unifying instance (things) and semantic (stuff) segmentation. Our model, TASCNet, uses feature maps from a shared backbone network to predict in a single feed-forward pass both things and stuff segmentations. We explicitly constrain these two output distributions through a global things and stuff binary mask to enforce cross-task consistency. Our proposed unified network is competitive with the state of the art on several benchmarks for panoptic segmentation as well as on the individual semantic and instance segmentation tasks.
研究动机与目标
- 提出一种统一的全景分割方法,将语义分割和实例分割合并为一个模型。
- 利用共享特征和跨任务约束来改进单独任务和联合全景输出。
- 提出一种可微分机制(TASC)以在训练期间保持 things 与 stuff 输出的一致。
- 展示在 Cityscapes、Mapillary Vistas 和 COCO 数据集上的高效性和具有竞争力的性能。
提出的方法
- 使用带有特征金字塔网络(FPN)的 ResNet50 主干,在 Things Head 与 Stuff Head 之间共享特征。
- 实现一个 Stuff Head,密集预测所有 stuff 类别并在需要时添加一个单独的 'things' 类。
- 使用基于区域的 CNN 头实现 Things Head,配合 RoIAlign 池化策略进行实例分割。
- 引入 Things and Stuff Consistency (TASC) 损失,以可微分方式最小化两个任务二进制掩膜之间的残差(通过 Things 的 RoI-Flatten 和 Stuff 掩膜的阈值化)。
- 应用掩膜引导的融合,在学习到的掩膜引导下,将实例预测与语义预测结合,产生最终的全景输出。
实验结果
研究问题
- RQ1在单个、统一的网络和共享主干的条件下,是否能够通过利用 things 与 stuff 的关系来改进全景分割?
- RQ2通过可微分的 TASC 约束强制跨任务一致性,是否能够稳定训练并提高手语义和实例分割任务的准确性?
- RQ3单网络全景模型与在标准基准上分开独立训练并进行后期融合的模型相比如何?
- RQ4Stuff 头中的本体选择(完整本体 vs 简化本体)对最终全景性能有何影响?
主要发现
| 方法 | 主干 | PQ | PQ th. | PQ st. | mIoU | AP |
|---|---|---|---|---|---|---|
| Kirillov et al [ 15 ] | R50+X101 | 61.2 | 54.0 | 66.4 | N/A | 36.4 |
| TASCNet | R-50 | 59.3 | 56.3 | 61.5 | 78.1 | 37.6 |
| TASCNet(M.) | R-50 | 60.4 | 56.1 | 63.3 | 78.7 | 39.09 |
| Table 1 (Cityscapes) - TASCNet family variants | R-50 | 60.4 | 56.1 | 63.3 | 78.7 | 39.09 |
- TASCNet 在 Cityscapes、Mapillary Vistas 和 COCO 上使用 ResNet-50 主干实现了具有竞争力的全景质量(PQ)。
- 加入 TASC 损失(λ > 0)相对非 TASC 基线提升 PQ 和相关指标,λ = 1 取得优秀结果。
- Stuff 头中的完整本体(同时预测 N 个 stuff 类和 M 个 thing 类)相较于将 things 简化为单一的 ‘thing’ 类,提升了性能。
- 两头协同训练(Things 与 Stuff)往往收敛到比分阶段训练更好的极小值。
- 在 Cityscapes 上,TASCNet 的变体达到接近或匹配最先进基线的 PQ,同时参数显著更少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。