[论文解读] SRM : A Style-based Recalibration Module for Convolutional Neural Networks
SRM 引入了一种轻量级的基于风格的通道重新校准模块,利用每通道的风格统计来重新赋权特征图,与 SE 相比开销极小地提升了性能。它在通用视觉任务和风格相关任务上取得提升。
Following the advance of style transfer with Convolutional Neural Networks (CNNs), the role of styles in CNNs has drawn growing attention from a broader perspective. In this paper, we aim to fully leverage the potential of styles to improve the performance of CNNs in general vision tasks. We propose a Style-based Recalibration Module (SRM), a simple yet effective architectural unit, which adaptively recalibrates intermediate feature maps by exploiting their styles. SRM first extracts the style information from each channel of the feature maps by style pooling, then estimates per-channel recalibration weight via channel-independent style integration. By incorporating the relative importance of individual styles into feature maps, SRM effectively enhances the representational ability of a CNN. The proposed module is directly fed into existing CNN architectures with negligible overhead. We conduct comprehensive experiments on general image recognition as well as tasks related to styles, which verify the benefit of SRM over recent approaches such as Squeeze-and-Excitation (SE). To explain the inherent difference between SRM and SE, we provide an in-depth comparison of their representational properties.
研究动机与目标
- 倡导利用图像风格信息来增强 CNN 表征。
- 提出一个使用风格上下文重新校准特征的轻量级体系单元。
- 在端到端训练中将 SRM 集成到标准 CNN,开销极小。
- 在通用视觉任务和风格相关领域对 SRM 进行经验验证。
提出的方法
- 使用均值和标准差(风格池化)提取逐通道的风格特征。
- 通过逐通道全连接层,随后进行批量归一化和 sigmoid 激活,计算每通道的风格权重(风格整合)。
- 通过与生成的风格权重(G)逐通道相乘来重新校准特征图。
- 在现有 CNN(如 ResNet)的残差块中集成 SRM,并进行端到端训练。
- 将 SRM 与 SE 和 GE 进行比较,并分析表征属性和剪枝行为。
实验结果
研究问题
- RQ1SRM 是否在 ImageNet 和 CIFAR 数据集上比 SE 和 GE 提高分类准确率?
- RQ2风格池化在捕捉有用风格信息方面与全局平均/最大池化相比有何差异?
- RQ3SRM 是否有助于风格相关任务,如 Stylized-ImageNet、纹理分类和多领域自适应?
- RQ4相对于 SE,SRM 的参数和计算性能效率如何?
主要发现
| 模型 | 参数 | GFLOPs | top-1 | top-5 |
|---|---|---|---|---|
| ResNet-50 | 25.56M | 3.86 | 75.89 | 92.85 |
| SE-ResNet-50 | 28.09M | 3.87 | 76.80 | 93.39 |
| GE-ResNet-50 | 31.12M | 3.87 | 76.75 | 93.41 |
| SRM-ResNet-50 | 25.62M | 3.88 | 77.13 | 93.51 |
| ResNet-101 | 44.55M | 7.58 | 77.40 | 93.59 |
| SE-ResNet-101 | 49.33M | 7.60 | 78.08 | 93.95 |
| GE-ResNet-101 | 53.58M | 7.60 | 77.36 | 93.64 |
| SRM-ResNet-101 | 44.68M | 7.62 | 78.47 | 94.20 |
- SRM-ResNet-50 在 ImageNet-1K 上的 top-1 为 77.13%,相比基线(ResNet-50)的 75.89%,仅额外 0.06M 参数。
- SRM 在 ImageNet-1K 和 CIFAR 数据集上始终优于 SE 和 GE,且参数量数量级更少。
- SRM 提高 Stylized-ImageNet 的准确率,也提升多领域 Office-Home 与纹理数据集(DTD)的性能。
- 通道剪枝显示在剪枝通道时,SRM 能比 SE 和 GE 更好地保持准确性,表明更好地学习了通道重要性。
- 在风格迁移中的 SRM(BN+SRM)达到与实例归一化(IN)竞争的风格化质量。
- 消融研究显示将 AvgPool 和 StdPool(风格池化)结合在池化变体中呈现最佳性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。