[论文解读] UPSNet: A Unified Panoptic Segmentation Network
UPSNet 提出了一种统一的全景分割网络,通过共享主干网络和两个轻量级分支头,联合预测语义分割和实例分割,其中参数量为零的全景头通过引入未知类别来解决冲突,并支持端到端训练。该方法在 Cityscapes、COCO 和一个内部驾驶数据集上实现了最先进性能,且推理速度更快。
In this paper, we propose a unified panoptic segmentation network (UPSNet) for tackling the newly proposed panoptic segmentation task. On top of a single backbone residual network, we first design a deformable convolution based semantic segmentation head and a Mask R-CNN style instance segmentation head which solve these two subtasks simultaneously. More importantly, we introduce a parameter-free panoptic head which solves the panoptic segmentation via pixel-wise classification. It first leverages the logits from the previous two heads and then innovatively expands the representation for enabling prediction of an extra unknown class which helps better resolve the conflicts between semantic and instance segmentation. Additionally, it handles the challenge caused by the varying number of instances and permits back propagation to the bottom modules in an end-to-end manner. Extensive experimental results on Cityscapes, COCO and our internal dataset demonstrate that our UPSNet achieves state-of-the-art performance with much faster inference. Code has been made available at: https://github.com/uber-research/UPSNet
研究动机与目标
- 将语义分割和实例分割统一为一个端到端可训练的全景分割框架。
- 通过在无参全景头中引入未知类别,解决语义分割与实例分割预测之间的冲突。
- 通过处理每张图像中实例数量可变的问题,实现反向传播通过整个网络。
- 在推理速度优于先前方法的前提下,实现最先进性能。
提出的方法
- 使用单一残差主干网络提取语义分割和实例分割的共享特征。
- 采用基于可变形卷积的语义分割头,并结合特征金字塔网络(FPN)以捕获多尺度上下文信息。
- 部署类似 Mask R-CNN 的实例分割头,用于边界框、类别和掩码预测。
- 引入一个无参全景头,通过融合语义头和实例头的对数几率进行逐像素分类,包含一个额外的未知类别通道。
- 通过允许在实例数量可变的情况下反向传播通过全景头,实现端到端训练。
- 应用损失平衡策略和一种新型 RoI 损失,以提升训练稳定性和性能。
实验结果
研究问题
- RQ1统一的网络架构能否有效结合共享表示学习的语义分割与实例分割,实现全景分割?
- RQ2如何以可微分、端到端的方式解决语义分割与实例分割预测之间的冲突?
- RQ3在全景头中引入未知类别对预测一致性和性能有何影响?
- RQ4与后处理或两阶段方法相比,无参全景头在准确率和推理速度方面表现如何?
- RQ5通过全景头实现端到端训练并反向传播,对整体性能的提升程度如何?
主要发现
- 在 COCO 数据集上,UPSNet 在完整训练下达到 46.7 的 PQ 分数,显著优于先前方法。
- 消融实验证明,训练全景头相比后处理方式可将 PQ 提升 0.5 分。
- 引入损失平衡策略使 PQ 提升 0.1 分,表明其对训练稳定性的关键作用。
- 通过 RoI 损失预测未知类别,使 PQ^St 提升 0.5 分,表明对模糊区域的处理能力得到改善。
- Oracle 实验表明,语义分割是最大瓶颈,使用真实标签(GT)语义标签可带来 +29.5 的 PQ 提升,凸显该组件仍有巨大改进空间。
- 该模型在 Cityscapes、COCO 和一个内部大规模驾驶数据集上均实现了最先进性能,且推理速度显著快于近期竞争对手。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。