Skip to main content
QUICK REVIEW

[论文解读] Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

Xiang Li, Xiaolin Hu|arXiv (Cornell University)|May 23, 2019
Advanced Neural Network Applications参考文献 44被引用 178
一句话总结

SGE 引入了一种轻量级的空间分组注意机制,通过使用全局-局部相似性在每个分组内生成逐位置注意,从而增强语义子特征,在开销几乎不增加的情况下提升性能。它在 ResNet 等骨干和 COCO 数据集上的检测任务中改善了分类与检测。

ABSTRACT

The Convolutional Neural Networks (CNNs) generate the feature representation of complex objects by collecting hierarchical and different parts of semantic sub-features. These sub-features can usually be distributed in grouped form in the feature vector of each layer, representing various semantic entities. However, the activation of these sub-features is often spatially affected by similar patterns and noisy backgrounds, resulting in erroneous localization and identification. We propose a Spatial Group-wise Enhance (SGE) module that can adjust the importance of each sub-feature by generating an attention factor for each spatial location in each semantic group, so that every individual group can autonomously enhance its learnt expression and suppress possible noise. The attention factors are only guided by the similarities between the global and local feature descriptors inside each group, thus the design of SGE module is extremely lightweight with \emph{almost no extra parameters and calculations}. Despite being trained with only category supervisions, the SGE component is extremely effective in highlighting multiple active areas with various high-order semantics (such as the dog's eyes, nose, etc.). When integrated with popular CNN backbones, SGE can significantly boost the performance of image recognition tasks. Specifically, based on ResNet50 backbones, SGE achieves 1.2\% Top-1 accuracy improvement on the ImageNet benchmark and 1.0$\sim$2.0\% AP gain on the COCO benchmark across a wide range of detectors (Faster/Mask/Cascade RCNN and RetinaNet). Codes and pretrained models are available at https://github.com/implus/PytorchInsight.

研究动机与目标

  • 推动在分组的 CNN 通道中学习更丰富的语义子特征。
  • 提出一个轻量级模块,在不大量增加参数的情况下增强分组特征的空间分布。
  • 展示 SGE 能提升语义区域的定位能力并降低特征图中的噪声。
  • 证明在图像分类和目标检测基准上取得更好性能。

提出的方法

  • 将特征图分成 G 个通道分组,并将每个分组视为一个语义组。
  • 通过对分组内的空间位置取平均来计算全局分组特征 g。
  • 通过 g 与局部特征 x_i 的点积计算逐位置系数 c_i,然后通过可学习的伽马和贝塔进行归一化,得到 a_i。
  • 用一个 sigmoid 门 σ(a_i) 将 x_i 缩放,产生每个分组内的增强特征 hat{x}_i。
  • 在 bottleneck 的 BatchNorm 之后整合 SGE,附加参数微乎其微(每组的 gamma、beta)。
  • 提供可视化和消融研究以验证归一化、分组数量和初始化的效应。

实验结果

研究问题

  • RQ1空间分组增强模块是否能在分组内可靠地提升语义特征学习?
  • RQ2在极少的参数开销下,SGE 是否能提高图像分类和目标检测的性能?
  • RQ3设计选择(分组数量、归一化、初始化)如何影响 SGE 的有效性?
  • RQ4与现有注意力模块相比,SGE 在性能和效率方面的表现如何?

主要发现

  • SGE 在 ImageNet 使用 ResNet50 时实现了 1.2% 的 Top-1 提升,在 COCO 检测器(覆盖 Faster/Mask/Cascade RCNN 与 RetinaNet)上获得 1.0–2.0% 的 AP 提升。
  • SGE 在小目标检测方面表现稳定,且在 RetinaNet 的小目标上约领先 SE 1% AP。
  • SGE 在参数更少、计算成本更低的情况下,提供与最先进注意力模块相当或更优的结果。
  • 归一化对稳定学习和性能至关重要;去除归一化会显著降低准确性。
  • 先增大再减小分组数量 G 会出现一个最佳点(常见为 G = 32 或 64),以获得最佳性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。