Skip to main content
QUICK REVIEW

[论文解读] Pyramid Scene Parsing Network

Hengshuang Zhao, Jianping Shi|arXiv (Cornell University)|Dec 4, 2016
Advanced Image and Video Retrieval Techniques参考文献 36被引用 314
一句话总结

PSPNet 引入四层金字塔池化模块,以捕获像素级场景解析的多尺度全局上下文,在 ADE20K、PASCAL VOC 2012 和 Cityscapes 上结合深度监督的基于 ResNet 的 FCN,达到最先进的结果。

ABSTRACT

Scene parsing is challenging for unrestricted open vocabulary and diverse scenes. In this paper, we exploit the capability of global context information by different-region-based context aggregation through our pyramid pooling module together with the proposed pyramid scene parsing network (PSPNet). Our global prior representation is effective to produce good quality results on the scene parsing task, while PSPNet provides a superior framework for pixel-level prediction tasks. The proposed approach achieves state-of-the-art performance on various datasets. It came first in ImageNet scene parsing challenge 2016, PASCAL VOC 2012 benchmark and Cityscapes benchmark. A single PSPNet yields new record of mIoU accuracy 85.4% on PASCAL VOC 2012 and accuracy 80.2% on Cityscapes.

研究动机与目标

  • 通过利用全局场景上下文,在开放词汇和多样场景下推动准确的场景解析。
  • 开发金字塔池化模块,以聚合多尺度上下文信息。
  • 集成深度监督,简化基于 ResNet 的深层 FCN 的优化。
  • 提供可操作、详细的实现以实现可重复的场景解析结果。

提出的方法

  • 提出一个金字塔池化模块,将四个金字塔层次(1x1、2x2、3x3、6x6)的特征融合到扩张卷积的 ResNet 特征图之上。
  • 将金字塔池化特征与原始特征图拼接,并应用最终卷积以预测逐像素标签。
  • 使用平均池化(经实证发现优于最大池化),并在上采样与拼接前应用 1x1 卷积以降低维度。
  • 通过在中间的 ResNet 块(res4b22)添加辅助损失,采用深度监督的训练策略,以促进极深网络的优化。
  • 使用数据增强和多项式学习率策略进行端到端训练;在 ADE20K、PASCAL VOC 2012 和 Cityscapes 上进行评估。

实验结果

研究问题

  • RQ1金字塔基的全局上下文先验能否提高开放词汇数据集(如 ADE20K)的像素级场景解析?
  • RQ2多尺度区域池化是否比单一全局池化更好地编码上下文关系?
  • RQ3深度监督是否有助于训练非常深的基于 ResNet 的 FCN 用于语义分割?
  • RQ4池化类型(平均 vs 最大)和降维对分割性能的影响?

主要发现

  • 具有四层金字塔池化的 PSPNet 在 Mean IoU 和 Pixel Accuracy 上显著优于基于 ResNet 的基线。
  • 在不同配置下,平均池化优于最大池化。
  • 在拼接前对池化后进行降维可获得更好性能。
  • 更深的网络(ResNet269)结合辅助损失和 PSP 能达到更高精度,多尺度测试进一步提升结果。
  • 在 ADE20K 上,带深度监督和 PSP 的 PSPNet 相对于基线有显著提升,单模型结果接近或超过 VOC 2012 的若干多模型集成。
  • 在 VOC 2012 上,PSPNet 在 MS-COCO 预训练和强大逐类表现下达到 85.4% VOC accuracy。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。