[论文解读] Differentiable Learning-to-Normalize via Switchable Normalization
可切换归一化(SN)学习在每一层中使用可学习的重要性权重选择性地组合三种归一化统计量(IN、LN、BN),从而对小批量大小具有鲁棒性,在各视觉任务中提升性能。
We address a learning-to-normalize problem by proposing Switchable Normalization (SN), which learns to select different normalizers for different normalization layers of a deep neural network. SN employs three distinct scopes to compute statistics (means and variances) including a channel, a layer, and a minibatch. SN switches between them by learning their importance weights in an end-to-end manner. It has several good properties. First, it adapts to various network architectures and tasks (see Fig.1). Second, it is robust to a wide range of batch sizes, maintaining high performance even when small minibatch is presented (e.g. 2 images/GPU). Third, SN does not have sensitive hyper-parameter, unlike group normalization that searches the number of groups as a hyper-parameter. Without bells and whistles, SN outperforms its counterparts on various challenging benchmarks, such as ImageNet, COCO, CityScapes, ADE20K, and Kinetics. Analyses of SN are also presented. We hope SN will help ease the usage and understand the normalization techniques in deep learning. The code of SN has been made available in https://github.com/switchablenorms/.
研究动机与目标
- 通过让不同层使用不同的归一化器而非固定选择来激发学习归一化。
- 开发一个端到端可微的机制来对 IN、LN、BN 的统计量进行加权。
- 展示 SN 对大量小批量大小的鲁棒性。
- 展示 SN 能在不依赖敏感超参数的情况下适应各种体系结构和任务。
提出的方法
- 通过对均值和方差的加权平均(Eq. 3)来将 IN、LN、BN 三组统计量结合起来的 SN 的引入。
- 通过在 IN、LN、BN 之间重复利用计算结果(Eq. 4)高效地计算统计量。
- 通过对控制参数 λ_k 和 λ_k′ 的 softmax 计算均值和方差的权重要权 w_k 和 w_k′(Eq. 5)来学习重要性权重。
- 通过反向传播同时训练网络参数 Θ 与控制参数 Φ,以最小化损失 L(Θ,Φ)。
- 通过将 SN 与权重归一化相关联来提供几何解释,以便比较归一化器(Remark 1)。
- 讨论如稀疏性和分组 SN 等未来工作变体,并概述使用批量均值统计的推理过程。
实验结果
研究问题
- RQ1一个单一的归一化层是否可以学习为给定层和任务选择最合适的归一化器?
- RQ2在不同的小批量大小下混合 IN、LN 和 BN 是否在统计上提升性能和稳定性?
- RQ3SN 在没有敏感超参数的情况下,对不同网络架构和数据集是否鲁棒?
- RQ4学习到的归一化权重如何在分类、检测、分割和视频识别等任务中自适应?
主要发现
- SN 在 ImageNet 的多种批量设置下优于 BN 和 GN,使用 ResNet50(例如,SN 的 top-1 为 76.9% 而基线为 BN/GN)。
- 当小批量尺寸较小时,SN 仍能保持高性能,而 BN 会显著下降;SN 可在不同批量设置下追踪或超过理想的 BN。
- SN 根据任务和数据集自适应其归一化器的组成,例如在较大批量下偏好 BN,而在极小批量下 LN 占主导。
- SN 在目标检测(Faster R-CNN、Mask R-CNN)和语义分割(Cityscapes、ADE20K)中提高性能,常常超过 GN 和 SyncBN 基线。
- SN 在 Kinetics 视频识别及其他任务中显示出竞争力或优越性,表明其具有广泛的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。