[论文解读] Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network
提出一个单网络(JSIS-Net)联合预测语义分割和实例分割,并用启发式方法合并输出以生成全景分割;在 COCO 和 Mapillary Vistas 数据集上通过联合训练实现有竞争力的 PQ。
We present a single network method for panoptic segmentation. This method combines the predictions from a jointly trained semantic and instance segmentation network using heuristics. Joint training is the first step towards an end-to-end panoptic segmentation network and is faster and more memory efficient than training and predicting with two networks, as done in previous work. The architecture consists of a ResNet-50 feature extractor shared by the semantic segmentation and instance segmentation branch. For instance segmentation, a Mask R-CNN type of architecture is used, while the semantic segmentation branch is augmented with a Pyramid Pooling Module. Results for this method are submitted to the COCO and Mapillary Joint Recognition Challenge 2018. Our approach achieves a PQ score of 17.6 on the Mapillary Vistas validation set and 27.2 on the COCO test-dev set.
研究动机与目标
- 将全景分割视为覆盖“人和物体/领域”的统一任务以提供动机。
- 开发一个单网络,联合学习语义分割和实例分割以实现端到端的全景输出。
- 通过共享 aResNet-50 骨干并共同训练两条分支来减少内存和计算。
- 引入合并启发式,将语义和实例输出结合起来以形成全景预测。
提出的方法
- 为语义和实例分割分支使用共享的 ResNet-50 骨干。
- 用 Pyramid Pooling Module 和 混合上采样将语义分支增强到全图分辨率。
- 实现一个基于 Mask R-CNN 的实例分割分支,带有 RPN 候选框和逐候选框的掩码。
- 通过可学习权重(lambda1...lambda7)对多任务损失进行平衡,形成单一联合损失 Ltot。
- 通过启发式方法合并语义和实例输出,解决重叠掩码和“thing/stuff”预测冲突,从而为每个像素分配类别和实例ID。
实验结果
研究问题
- RQ1单网络的语义分割和实例分割的联合训练是否能提高全景分割性能,相比独立模型?
- RQ2应如何将语义分支和实例分支的预测合并,以生成准确的全景输出?
- RQ3对于像 COCO 和 Mapillary Vistas 这样的多样数据集,共享骨干的方法有哪些局限?
- RQ4该方法对小物体检测和 things 与 stuff 之间边界冲突是否具有鲁棒性?
主要发现
| Dataset | PQ | SQ | RQ | PQ Th | SQ Th | RQ Th | PQ St | SQ St | RQ St |
|---|---|---|---|---|---|---|---|---|---|
| Mapillary Vistas val | 17.6 | 55.9 | 23.5 | 10.0 | 47.6 | 14.1 | 27.5 | 66.9 | 35.8 |
| COCO test-dev | 27.2 | 71.9 | 35.9 | 29.6 | 71.6 | 39.4 | 23.4 | 72.3 | 30.6 |
| COCO val | 26.9 | 72.4 | 35.7 | 29.3 | 72.1 | 39.2 | 23.3 | 73.0 | 30.4 |
- 联合训练在 Mapillary Vistas Val 上相较独立训练的分支,提升了 PQ、mIoU 和 mAP_0.5。
- 在 Mapillary Vistas 上,联合训练模型达到 mIoU 34.7,mAP 0.5 8.4,PQ 17.4,优于仅语义(mIoU 33.6)和仅实例(mAP 0.5 6.5)基线。
- 在 COCO 上,该方法达到 PQ 27.2(test-dev)和 26.9(val),在 things 和 stuff 的 SQ 高且 RQ 具有竞争力(见表格)。
- RPN 召回率对数据集敏感;COCO val 的平均召回率为 0.827,而 Mapillary Vistas val 为 0.363,表明 Mapillary 上的 RPN 瓶颈影响实例分割性能。
- 合并启发式优先考虑实例预测并通过将每个像素分配给最高的像素级实例概率来消除重叠像素分配,并在适用时用基于实例的标签替换语义的 stuff 预测。
- 提出的联合框架在内存上更高效且比运行两个单独网络更快,但在某些指标上性能落后于基线全景方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。