[论文解读] Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models
Batch Renormalization 将 Batch Normalization 扩展为减少小批量依赖,在小或非独立同分布(i.i.d.)的小批量下仍能稳定训练,同时保持训练效率与 BN 的其他优点。它引入按维度的仿射矫正(r, d),从小批量中计算但在反向传播时被视为常量,在训练过程中逐渐放松。
Batch Normalization is quite effective at accelerating and improving the training of deep models. However, its effectiveness diminishes when the training minibatches are small, or do not consist of independent samples. We hypothesize that this is due to the dependence of model layer inputs on all the examples in the minibatch, and different activations being produced between training and inference. We propose Batch Renormalization, a simple and effective extension to ensure that the training and inference models generate the same outputs that depend on individual examples rather than the entire minibatch. Models trained with Batch Renormalization perform substantially better than batchnorm when training with small or non-i.i.d. minibatches. At the same time, Batch Renormalization retains the benefits of batchnorm such as insensitivity to initialization and training efficiency.
研究动机与目标
- 激励并解决当小批量或非独立同分布时 Batch Normalization 的缺点。
- 开发一个扩展,使训练中的激活对单个样本产生依赖,类似于推理阶段
- 在保持 BN 的优点(训练速度、对初始化的鲁棒性)的同时,使训练阶段的激活与推理阶段的激活保持一致
- 提供一个实用、易于实现的方法,具有可调的矫正边界和移动平均更新
提出的方法
- 引入按维度的矫正因子 r 和 d 到 Batch Normalization 的激活中,在梯度计算时被视为常量
- 从小批量统计量计算 r 和 d,但用 r_max 和 d_max 进行截断,并对它们的数值应用 stop_gradient(梯度截断)
- 在训练过程中使用移动平均 mu 和 sigma 进行矫正,采用更高的更新率 alpha 以保持统计量的时效性
- 在训练过程中逐步放松矫正边界,使从 BN 过渡到 Renorm
- 提供 x, y, mu, sigma, r, d, gamma, beta 的显式反向传播方程
- 给出一个更新 mu 和 sigma 并在前向和后向传播中应用重新归一化的算法概要
实验结果
研究问题
- RQ1Batch Renormalization 能否降低在小批量或非 i.i.d. 小批量上观察到的训练与推理激活之间的错配?
- RQ2Batch Renormalization 是否在提高在具有挑战性小批量情境下的性能的同时,保留 Batch Normalization 的优点(训练速度、对初始化的不敏感性)?
- RQ3应如何为稳定训练设定矫正边界(r_max、d_max)和移动平均更新速率(alpha)?
- RQ4Batch Renormalization 在通常使用 BN 的架构和任务中是否有效(例如使用 Inception/V3 的图像分类)?
主要发现
- 在 ImageNet 的 Inception-v3 上,当小批量大小为 32,跨 50 个工作者时,Batch Renormalization 的验证准确率与 Batch Normalization 相当或略高(使用 BN 基线 78.3%,Renorm 为 78.5%)
- 采用微批量 4 的情况下,Batch Renorm 训练速度更快、准确度更高(130k 步时为 76.5%,而 210k 步时的 BatchNorm 为 74.2%)
- 在按标签采样的非 i.i.d. 小批量上,BatchNorm 性能崩溃,而 Batch Renorm 回升到基线水平的准确率(120k 步时 78.5%)
- Batch Renormalization 消除了在度量学习等小批量设置中观察到的对偏置小批量分布的过拟合
- 该方法易于实现,运行速度与 BN 相近,并引入超参数(alpha、r_max、d_max),并在训练过程中对矫正进行放松的调度
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。