QUICK REVIEW

[论文解读] Four Things Everyone Should Know to Improve Batch Normalization

Cecilia Summers, Michael J. Dinneen|arXiv (Cornell University)|Jun 9, 2019

Advanced Neural Network Applications参考文献 48被引用 30

一句话总结

本文提出批量归一化（Batch Normalization）的四项实用改进，可在不增加额外训练计算量的前提下，提升所有批量大小下的模型性能。该工作引入推理时样本加权以解决训练-推理归一化差异，验证了在中等批量下Ghost Batch Normalization的正则化效果，表明对γ和β施加权重衰减可提升泛化能力，并提出一种混合批量-组归一化方法，适用于极小批量设置，在CIFAR-100上准确率提升超过6%。

ABSTRACT

A key component of most neural network architectures is the use of normalization layers, such as Batch Normalization. Despite its common use and large utility in optimizing deep architectures, it has been challenging both to generically improve upon Batch Normalization and to understand the circumstances that lend themselves to other enhancements. In this paper, we identify four improvements to the generic form of Batch Normalization and the circumstances under which they work, yielding performance gains across all batch sizes while requiring no additional computation during training. These contributions include proposing a method for reasoning about the current example in inference normalization statistics, fixing a training vs. inference discrepancy; recognizing and validating the powerful regularization effect of Ghost Batch Normalization for small and medium batch sizes; examining the effect of weight decay regularization on the scaling and shifting parameters gamma and beta; and identifying a new normalization algorithm for very small batch sizes by combining the strengths of Batch and Group Normalization. We validate our results empirically on six datasets: CIFAR-100, SVHN, Caltech-256, Oxford Flowers-102, CUB-2011, and ImageNet.

研究动机与目标

为解决批量归一化中被忽视的训练与推理归一化差异问题。
识别并验证在非大批次设置下被低估的正则化技术（如Ghost Batch Normalization）的有效性。
研究对批量归一化中可学习参数γ和β施加权重衰减的影响。
通过结合批量归一化与组归一化的优点，设计一种在极小批量设置下有效的新型归一化方法。

提出的方法

通过在推理阶段将当前样本统计量与移动平均值混合，引入推理时样本加权，以减少训练-推理之间的差异。
采用Ghost Batch Normalization，将每个批次分割为更小的组进行归一化，即使在中等批量、单GPU训练中也能增强正则化效果。
直接对批量归一化中的缩放参数（γ）和偏移参数（β）施加权重衰减，将其视为模型参数以提升泛化能力。
提出一种混合归一化方法，结合批次级与组级统计量，在小批量中有效利用跨样本信息。
推理时使用批次统计量的指数移动平均，同时通过可学习参数α融合当前样本的统计量。
在六个数据集上使用标准图像分类基准验证所有方法，涵盖从零开始训练和迁移学习两种设置。

实验结果

研究问题

RQ1训练与推理归一化之间的差异对模型性能有何影响？是否可在不增加计算量的前提下加以缓解？
RQ2Ghost Batch Normalization在中等和小批量设置下的泛化能力提升程度如何，是否超越其原始应用场景？
RQ3对批量归一化中的可学习参数γ和β施加权重衰减有何影响？其是否构成有效的正则化手段？
RQ4能否设计一种统一的归一化方法，使批量归一化与组归一化的优点在极小批量设置下得以充分发挥？

主要发现

推理时样本加权在非独立同分布（non-i.i.d.）小批量上将误差率降低高达20%，且无需重新训练。
Ghost Batch Normalization在非独立同分布设置下性能可媲美批量归一化重校准（Batch Renormalization），即使Ghost小批量尺寸较小亦成立。
对γ和β施加权重衰减可提升泛化能力，尤其在小批量设置下表现显著，且在所有测试数据集中均有效。
所提出的混合Batch-Group归一化方法在B=2的CIFAR-100上达到76.1%的准确率，优于标准批量归一化，并对非独立同分布数据表现出强鲁棒性。
当四项改进同时应用时，与标准批量归一化相比，CIFAR-100的准确率提升超过6%。
该方法在多种数据集（包括ImageNet、Caltech-256和CUB-2011）上均表现有效，在从零开始训练和微调场景中均取得一致性能增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。