[论文解读] An End-to-End Network for Panoptic Segmentation
本文提出 OANet,一种用于全景分割的端到端遮挡感知网络,通过共享主干特征和一种新颖的空间排序模块,将实例分割与事物分割统一于单一模型中,以解决重叠目标预测的歧义问题。该方法在 COCO 全景分割基准上达到最先进性能,在使用 ResNet-101 的测试开发集上取得 41.3 的 PQ 得分。
Panoptic segmentation, which needs to assign a category label to each pixel and segment each object instance simultaneously, is a challenging topic. Traditionally, the existing approaches utilize two independent models without sharing features, which makes the pipeline inefficient to implement. In addition, a heuristic method is usually employed to merge the results. However, the overlapping relationship between object instances is difficult to determine without sufficient context information during the merging process. To address the problems, we propose a novel end-to-end network for panoptic segmentation, which can efficiently and effectively predict both the instance and stuff segmentation in a single network. Moreover, we introduce a novel spatial ranking module to deal with the occlusion problem between the predicted instances. Extensive experiments have been done to validate the performance of our proposed method and promising results have been achieved on the COCO Panoptic benchmark.
研究动机与目标
- 解决传统全景分割流水线中分别使用实例和事物分割模型所导致的效率低下与启发式合并问题。
- 通过在统一网络架构中共享实例与事物分割分支之间的特征,降低计算开销。
- 通过学习实例的空间排序来解决重叠目标预测中的歧义,以指导正确的分割分配。
- 实现可学习的、端到端的训练过程,联合优化两项分割任务,无需后处理合并。
- 通过引入上下文感知的实例排序机制,提升 COCO 全景分割基准上的性能。
提出的方法
- 将实例与事物分割整合到单一网络中,采用共享的 ResNet-50 或 ResNet-101 主干网络,并为每项任务设置独立的头部分支。
- 使用来自实例与事物监督的联合损失对网络进行端到端训练,实现共享特征的联合优化。
- 引入空间排序模块,基于空间上下文为每个实例预测一个排序分数,以解决遮挡歧义。
- 该空间排序模块采用感受野较大的 1×7 和 7×1 卷积层,以捕捉长距离上下文信息,实现精确排序。
- 利用预测的排序分数确定重叠像素应归属于哪个实例,替代启发式合并策略。
- 应用来自 FPN 特征金字塔的跳跃连接,以增强特征表示并提升检测质量。
实验结果
研究问题
- RQ1统一的端到端网络能否通过共享特征有效结合实例与事物分割,从而降低计算成本?
- RQ2如何在不依赖启发式后处理的情况下解决实例间重叠预测的问题?
- RQ3分割头之间特征共享对整体全景分割性能有何影响?
- RQ4可学习的空间排序机制是否相比基于分数的启发式方法能提升遮挡区域的预测准确性?
- RQ5所提出方法是否在 COCO 全景分割基准上达到最先进性能?
主要发现
- OANet 在 COCO 2018 测试开发集上取得 41.3 的 PQ 得分,优于以往最先进方法。
- 与端到端基线相比,空间排序模块使 PQ 提升 1.8%,PQ^Th 提高 2.9%,表明对实例级遮挡的处理能力更强。
- 在 ResNet-50 和 ResNet-101 上,实例与事物分割头之间的特征共享分别使 PQ 提升 0.7 分,证明共享表征的优势。
- 在空间排序模块中使用更大的感受野(1×7 和 7×1 卷积)相比 1×1 或 3×3 核,性能更优,PQ 达到 39.0。
- 使用非重叠标注代替真实标注进行训练并未提升性能,甚至可能降低性能,表明网络从真实重叠案例中学习更受益。
- 可视化结果证实,空间排序模块能正确为重叠实例分配优先级——例如在人群场景中正确将人排在领结之上——而启发式方法则会失败。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。