QUICK REVIEW

[论文解读] Rethinking "Batch" in BatchNorm

Yuxin Wu, Justin Johnson|arXiv (Cornell University)|May 17, 2021

Machine Learning and Algorithms参考文献 76被引用 25

一句话总结

本论文回顾 BatchNorm 的细微陷阱，并证明重新定义批次的概念（从中计算的统计量是什么）可以在视觉任务中显著提升模型性能，尤其是在小的归一化批次和域迁移下。

ABSTRACT

BatchNorm is a critical building block in modern convolutional neural networks. Its unique property of operating on "batches" instead of individual samples introduces significantly different behaviors from most other operations in deep learning. As a result, it leads to many hidden caveats that can negatively impact model's performance in subtle ways. This paper thoroughly reviews such problems in visual recognition tasks, and shows that a key to address them is to rethink different choices in the concept of "batch" in BatchNorm. By presenting these caveats and their mitigations, we hope this review can help researchers use BatchNorm more effectively.

研究动机与目标

在视觉识别任务中识别应用 BatchNorm 时隐藏的注意事项。
分析不同选择的 BatchNorm batch 如何影响训练、推理和泛化。
提出并评估标准 EMA 基于的总体统计量（PreciseBN）的替代方案以及批处理处理，以缓解不一致性。

提出的方法

回顾并分类 BatchNorm 在训练和推理过程中如何计算和使用统计量。
在 ImageNet 上对 ResNet-50 进行经验比较，比较广义移动平均 EMA 与 PreciseBN 的总体统计量。
尝试不同的归一化批次大小，并评估在训练时使用小批量统计量与在测试时使用总体统计量的影响。
在跨域、跨域输入以及检测模型中的头部（R-CNN 风格）下，研究 BatchNorm 的行为。
探索降低训练-测试不一致性的策略，包括推断中的小批量统计量和训练中的 FrozenBN。

实验结果

研究问题

RQ1不同对 BatchNorm batch 的定义如何影响模型在训练和推理过程中的性能？
RQ2EMA 作为总体统计量的局限性是什么，PreciseBN 是否带来实际改进？
RQ3归一化批次大小如何影响训练噪声、泛化和训练-测试一致性？
RQ4在推理时使用小批量统计量或在训练时使用 FrozenBN 能否减少域相关不一致性？
RQ5当输入来自多个域或使用检测头时，BatchNorm 的选择表现如何？

主要发现

EMA 可能对总体统计量估计不良，尤其在早期训练或大批量情形下，导致验证性能不稳定。
PreciseBN 通过在固定模型状态下对大量小批量的统计量进行聚合，得到更精确的总体统计量，从而获得更稳定的验证结果。
增大归一化批次可降低训练噪声和训练-测试不一致性，而非常小的归一化批次可能会降低性能；有了 PreciseBN 或小批量推断统计量，这一差距可以得到缓解。
在推断中使用小批量统计量可以降低训练-测试不一致性，并在归一化批次较小的场景（如 R-CNN 头部或小批量设置）下提升性能。
FrozenBN（训练时总体统计量固定）可以降低训练-测试不一致性，在迁移学习场景中有效，尽管在大型归一化批次下可能表现不佳。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。