[论文解读] Don't Decay the Learning Rate, Increase the Batch Size
本论文表明,在固定学习率下增大批量大小可以复制学习曲线和测试精度,从而实现大批量训练并减少更新次数。
It is common practice to decay the learning rate. Here we show one can usually obtain the same learning curve on both training and test sets by instead increasing the batch size during training. This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam. It reaches equivalent test accuracies after the same number of training epochs, but with fewer parameter updates, leading to greater parallelism and shorter training times. We can further reduce the number of parameter updates by increasing the learning rate $ε$ and scaling the batch size $B \propto ε$. Finally, one can increase the momentum coefficient $m$ and scale $B \propto 1/(1-m)$, although this tends to slightly reduce the test accuracy. Crucially, our techniques allow us to repurpose existing training schedules for large batch training with no hyper-parameter tuning. We train ResNet-50 on ImageNet to $76.1\%$ validation accuracy in under 30 minutes.
研究动机与目标
- 引发并理解为什么在基于 SGD 的优化中常用学习率衰减。
- 提出并验证一种替代方案:在训练期间增大批量以匹配学习曲线和泛化。
- 证明大批量训练在不同优化器下以更少的参数更新也能达到类似的测试精度。
- 展示在 CIFAR-10 和 ImageNet 上针对不同架构和硬件的实际可扩展性收益。
提出的方法
- 将 SGD 建模为随机微分方程以分析噪声尺度 g = ε(N/B − 1)。
- 证明对固定训练轮次,衰减学习率与增大批量大小等价。
- 提出并测试随着学习率衰减而增大的批量大小调度(当 ε 衰减为 α 时,B ∝ α)。
- 探索有效学习率 ε_eff = ε/(1−m) 对动量的影响并相应调整批量大小。
- 在 CIFAR-10 上使用 Wide ResNet 以及在 ImageNet 上使用 Inception-ResNet-V2 与 ResNet-50/TPU 进行经验验证。
- 评估动量对大批量训练的影响并讨论累积动态。
实验结果
研究问题
- RQ1在固定学习率下训练时增加批量大小是否能在训练动力学和测试精度方面复制衰减学习率的效果?
- RQ2如何调整批量大小、学习率和动量以在最小化参数更新的同时保持泛化?
- RQ3大批量训练在常见优化器(SGD、动量、Nesterov、Adam)和体系结构中的实际极限与收益是什么?
- RQ4这些策略如何转化为在 GPU 和 TPU 上的 ImageNet 规模训练?
主要发现
- 在 SGD、SGD+动量、Nesterov 动量和 Adam 下,训练期间增大批量大小可获得近似等同于衰减学习率调度的测试精度。
- 用批量大小增长替代学习率衰减可以在保持性能的前提下减少参数更新次数。
- 使用更大的学习率并将批量大小按 B ∝ ε,或按 B ∝ 1/(1−m) 增大,可以进一步减少更新次数,但在动量的不同情况下对准确率有一些权衡。
- 在 CIFAR-10 上,宽度 ResNet 的实验在比较衰减 LR、混合及增加-B 调度时显示相同的训练曲线。
- 在 ImageNet 上,使用每批 65,536 的大批量训练,在 Inception-ResNet-V2 上的验证准确率达到 77–77.5%,更新次数不足 2,500;在 TPU 上 ResNet-50 的准确率为 76.1%,且在不到 30 分钟内完成。
- 大批量训练可以在不增加超参数调优的情况下显著降低墙钟时间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。