Skip to main content
QUICK REVIEW

[论文解读] Strip Pooling: Rethinking Spatial Pooling for Scene Parsing

Qibin Hou, Li Zhang|arXiv (Cornell University)|Mar 30, 2020
Advanced Neural Network Applications参考文献 65被引用 43
一句话总结

引入 strip pooling(1xN 或 Nx1 内核)以及两个模块(Strip Pooling Module 和 Mixed Pooling Module),以捕获场景分割中的远程和多样化上下文信息,在 ADE20K、Cityscapes 和 Pascal Context 上取得了最优性能。

ABSTRACT

Spatial pooling has been proven highly effective in capturing long-range contextual information for pixel-wise prediction tasks, such as scene parsing. In this paper, beyond conventional spatial pooling that usually has a regular shape of NxN, we rethink the formulation of spatial pooling by introducing a new pooling strategy, called strip pooling, which considers a long but narrow kernel, i.e., 1xN or Nx1. Based on strip pooling, we further investigate spatial pooling architecture design by 1) introducing a new strip pooling module that enables backbone networks to efficiently model long-range dependencies, 2) presenting a novel building block with diverse spatial pooling as a core, and 3) systematically comparing the performance of the proposed strip pooling and conventional spatial pooling techniques. Both novel pooling-based designs are lightweight and can serve as an efficient plug-and-play module in existing scene parsing networks. Extensive experiments on popular benchmarks (e.g., ADE20K and Cityscapes) demonstrate that our simple approach establishes new state-of-the-art results. Code is made available at https://github.com/Andrew-Qibin/SPNet.

研究动机与目标

  • 推动改进像素级场景解析中的远程上下文建模,超越平方池化形状。
  • 提出 strip pooling 以窄核捕获长范围依赖。
  • 设计轻量级模块(SPM 和 MPM),可接入骨干网络以提升分割效果。

提出的方法

  • 将 strip pooling 定义为对行或列进行均值汇聚(1xW 或 Hx1 窗口),形成长范围的带状上下文。
  • 开发 Strip Pooling Module (SPM),包含水平和垂直 strip pooling 路径,后接一维卷积并通过带有 sigmoid 指引的尺度融合进行特征融合。
  • 在残差瓶颈框架中引入 Mixed Pooling Module (MPM),将短范围金字塔状池化路径与长范围 strip-pooling 路径结合。
  • 通过将 SPM 集成到骨干网络并在 ResNet 骨干上叠加 MPM,组装 SPNet 以优化分割特征。
  • 提供可轻量化、即插即用的设计,能够添加到现有场景解析网络中。

实验结果

研究问题

  • RQ1strip pooling 与传统的方形池化在捕获场景解析的长距离上下文依赖方面有何差异?
  • RQ2在标准基准上,轻量级的 SPM 和 MPM 块是否在参数开销有限的情况下提升精度?
  • RQ3将短范围与长范围池化策略结合对分割性能有何影响?

主要发现

  • SPNet 采用 2 个 MPM 和 SPM,在带 ResNet-50 骨干的 ADE20K 上达到 44.03% mIoU(像素准确率 80.65%)。
  • 使用 ResNet-101,SPNet 在 ADE20K 上达到 45.60% mIoU 和 82.09% 像素准确率(单模型测试)。
  • 在 Cityscapes 测试集上,SPNet 使用 ResNet-101 的 mIoU 达到 82.0%,优于若干前人方法。
  • 消融实验表明在 MPM 中同时结合 SRD(短范围依赖)和 LRD(长范围依赖)比任一单独使用时具有更高的 mIoU,并且将 SPM 放置在骨干网络的策略位置能带来显著提升。
  • Strip pooling 在 SPNet 设置中优于全局平均池化,ADE20K 上的 44.03% mIoU 低于使用 GAP 时的 41.34%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。