Skip to main content
QUICK REVIEW

[论文解读] Squeeze-and-Excitation Networks

Jie Hu, Li Shen|arXiv (Cornell University)|Sep 5, 2017
Advanced Neural Network Applications被引用 2,226
一句话总结

引入 Squeeze-and-Excitation (SE) 块,通过重新校准通道级特征响应以建模通道之间的相互依赖,在各种 CNN 架构和数据集上在计算开销极小的情况下实现显著的准确性提升。

ABSTRACT

The central building block of convolutional neural networks (CNNs) is the convolution operator, which enables networks to construct informative features by fusing both spatial and channel-wise information within local receptive fields at each layer. A broad range of prior research has investigated the spatial component of this relationship, seeking to strengthen the representational power of a CNN by enhancing the quality of spatial encodings throughout its feature hierarchy. In this work, we focus instead on the channel relationship and propose a novel architectural unit, which we term the "Squeeze-and-Excitation" (SE) block, that adaptively recalibrates channel-wise feature responses by explicitly modelling interdependencies between channels. We show that these blocks can be stacked together to form SENet architectures that generalise extremely effectively across different datasets. We further demonstrate that SE blocks bring significant improvements in performance for existing state-of-the-art CNNs at slight additional computational cost. Squeeze-and-Excitation Networks formed the foundation of our ILSVRC 2017 classification submission which won first place and reduced the top-5 error to 2.251%, surpassing the winning entry of 2016 by a relative improvement of ~25%. Models and code are available at https://github.com/hujie-frank/SENet.

研究动机与目标

  • 研究是否通过显式建模通道之间的相互依赖关系可以改进 CNN 表征。
  • 开发一个轻量级的架构单元(SE block),以重新校准通道维度的特征响应。
  • 证明 SE blocks 可以作为可直接替换的模块集成到多种架构中,在不显著增加计算成本的情况下提升性能。

提出的方法

  • 定义 SE 块,其通过全局平均池化完成挤压操作以捕获全局通道统计信息。
  • 设计一个激活机制,采用两层全连接层的瓶颈结构和一个 sigmoid 门来产生逐通道的权重。
  • 将学习到的逐通道权重应用于缩放相应的特征图(通道级重加权)。
  • 堆叠 SE 块以形成 SENet 架构,或在现有网络中替换相应的块(如 SE-ResNet、SE-Inception),以适应不同深度和架构。
  • 在 ImageNet 及其他数据集(CIFAR-10/100、Places365)以及多种架构(ResNet、Inception、ResNeXt、MobileNet、ShuffleNet)上评估 SE 块。
  • 与基线进行对比并报告在适度的 GFLOP 开销下的改进(默认 r = 16)。

实验结果

研究问题

  • RQ1SE 块是否在不显著增加计算成本的前提下提升标准 CNN 架构的分类准确率?
  • RQ2通过 SE 块进行的通道级重校准是否能在超越 ImageNet 的数据集和任务中泛化?
  • RQ3SE 块对不同网络深度和架构的影响是什么?

主要发现

  • SE 块在 ResNet、Inception-ResNet、ResNeXt、类似 VGG、MobileNet 以及 ShuffleNet 的基线上持续提升 top-1 和 top-5 准确率。
  • SE-ResNet-50 在 ImageNet 上实现 6.62% 的 top-5 错误率(比 ResNet-50 提升 0.86%),并以大致一半的 FLOPs 接近更深的 ResNet-101 的性能。
  • SE-ResNet-101 and SE-ResNet-152 超越了它们的非 SE 对应网络,甚至超过一些更深的模型,在计算成本相近或略有增加的情况下提高了准确性。
  • SE 块在 CIFAR-10 和 CIFAR-100 上对 ResNet、WRN 以及 Shake-Shake 变体均有提升,表明在小型数据集上具有鲁棒性。
  • 在 Places365 上,SE-ResNet-152 的 top-5 错误率低于 ResNet-152(11.01% 对 11.61%)。
  • 在 COCO 的 Faster R-CNN 目标检测中,相较基线 ResNets,SE-ResNet 骨干网络在 AP@IoU=0.5 和 AP 上有所提升(例如 SE-ResNet-50 比 ResNet-50 提升 2.4 个 AP 点)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。