Skip to main content
QUICK REVIEW

[论文解读] Scaling Wide Residual Networks for Panoptic Segmentation

Liang-Chieh Chen, Huiyu Wang|arXiv (Cornell University)|Nov 23, 2020
Advanced Neural Network Applications参考文献 107被引用 28
一句话总结

该论文提出 SWideRNet,一种通过网格搜索调整宽度(通道数)和深度(层数)的缩放宽残差网络家族,用于全景分割。通过在修改后的宽残差网络基线中集成挤压-激励(Squeeze-and-Excitation)和可切换空洞卷积(Switchable Atrous Convolution)模块,该方法在 COCO、Cityscapes 和 ADE20K 上实现了最先进(SOTA)的速度-精度权衡。快速变体在相似推理速度下比 MobileNetV3 至少高出 3% 的 PQ,而强模型变体在多个基准上超越了 Axial-DeepLab。

ABSTRACT

The Wide Residual Networks (Wide-ResNets), a shallow but wide model variant of the Residual Networks (ResNets) by stacking a small number of residual blocks with large channel sizes, have demonstrated outstanding performance on multiple dense prediction tasks. However, since proposed, the Wide-ResNet architecture has barely evolved over the years. In this work, we revisit its architecture design for the recent challenging panoptic segmentation task, which aims to unify semantic segmentation and instance segmentation. A baseline model is obtained by incorporating the simple and effective Squeeze-and-Excitation and Switchable Atrous Convolution to the Wide-ResNets. Its network capacity is further scaled up or down by adjusting the width (i.e., channel size) and depth (i.e., number of layers), resulting in a family of SWideRNets (short for Scaling Wide Residual Networks). We demonstrate that such a simple scaling scheme, coupled with grid search, identifies several SWideRNets that significantly advance state-of-the-art performance on panoptic segmentation datasets in both the fast model regime and strong model regime.

研究动机与目标

  • 重新审视并改进宽残差网络(Wide-ResNets)在具有挑战性的全景分割任务中的架构。
  • 通过引入宽度和深度的系统性缩放策略,解决自 2016 年以来宽残差网络设计的停滞问题。
  • 在全景分割中实现优越的速度-精度权衡,特别是在实时推理场景中。
  • 通过在宽度和深度因子上进行网格搜索,实证识别出最优网络配置,从而超越先前的最先进模型。

提出的方法

  • 提出 SWideRNet-$(w_1, w_2, ε)$,一个通过缩放宽残差网络主干的宽度($w_1$, $w_2$)和深度($ε$)衍生出的模型家族。
  • 引入挤压-激励(SE)和可切换空洞卷积(SAC)模块,以增强表征能力和上下文建模能力。
  • 为缩放因子 $w_1$、$w_2$ 和 $ε$ 设定离散化搜索空间,以实现对模型容量的高效网格搜索。
  • 将表现最佳的 SWideRNet 变体作为主干网络部署于 Panoptic-DeepLab 框架中,进行端到端训练与评估。
  • 采用真实 GPU 推理时间测量而非 FLOPs 来评估速度-精度权衡,承认 FLOPs 作为代理指标的不足。
  • 通过消融研究分析缩放因子对性能和推理速度的影响,特别将前两个阶段隔离为速度瓶颈。

实验结果

研究问题

  • RQ1在宽残差网络中系统性地缩放宽度和深度是否能提升其在全景分割基准上的性能?
  • RQ2集成挤压-激励和可切换空洞卷积是否能增强宽残差网络在密集预测任务中的性能?
  • RQ3SWideRNet 的速度-精度权衡是否优于先前的最先进模型,尤其是在实时推理场景中?
  • RQ4在强模型设置下,增加宽度、深度或两者同时增加,哪种缩放策略在提升模型性能方面最高效?
  • RQ5为何所有最快的 SWideRNet 变体均采用相同的 $w_1 = 0.25$ 因子?这反映了架构计算分布中的何种瓶颈?

主要发现

  • 最快的 SWideRNet 变体(如 SWideRNet-(0.25, 0.35, 1))在 COCO 上以相似推理速度下,PQ 至少比 MobileNetV3 高出 3%。
  • SWideRNet-(1, 1, 4.5) 模型在 Cityscapes(粗粒度 + 伪标签)上达到 68.5% 的 PQ,优于先前的最先进模型(包括 Axial-DeepLab-XL)。
  • 在 Mapillary Vistas 上,单一 SWideRNet 模型的表现优于集成模型,使用多尺度输入时达到 44.8% 的 PQ 和 60.0% 的 mIoU。
  • 在 ADE20K 上,SWideRNet-(1, 1.5, 3) 模型在多尺度输入下达到 37.86% 的 PQ,优于先前的单模型基线。
  • 搜索结果表明,在强模型设置下,增加深度($ε$)是提升网络容量最高效的方式,暗示宽残差网络的宽度已足够。
  • 前两个阶段被识别为最主要的性能瓶颈,因为所有快速模型均使用 $w_1 = 0.25$,表明计算分布存在架构失衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。