QUICK REVIEW

[论文解读] Big Batch SGD: Automated Inference using Adaptive Batch Sizes

Soham De, Abhay Kumar Yadav|arXiv (Cornell University)|Oct 18, 2016

Stochastic Gradient Optimization Techniques参考文献 23被引用 39

一句话总结

本文提出 Big Batch SGD，一种自适应优化方法，通过随时间动态增大小批量大小，以在梯度估计中保持恒定的信噪比。通过稳定梯度质量，该方法可实现恒定或自动调整的步长，从而消除对人工学习率调度的依赖，并在极少超参数调优的情况下实现与调优后 SGD 相当的性能。

ABSTRACT

Classical stochastic gradient methods for optimization rely on noisy gradient approximations that become progressively less accurate as iterates approach a solution. The large noise and small signal in the resulting gradients makes it difficult to use them for adaptive stepsize selection and automatic stopping. We propose alternative "big batch" SGD schemes that adaptively grow the batch size over time to maintain a nearly constant signal-to-noise ratio in the gradient approximation. The resulting methods have similar convergence rates to classical SGD, and do not require convexity of the objective. The high fidelity gradients enable automated learning rate selection and do not require stepsize decay. Big batch methods are thus easily automated and can run with little or no oversight.

研究动机与目标

为解决经典随机梯度下降（SGD）在迭代接近收敛时梯度估计噪声过大的挑战。
通过自适应小批量大小维持稳定的信噪比，消除 SGD 中对人工学习率衰减调度的依赖。
通过利用来自不断增大的小批量的高保真梯度，实现几乎全自动的优化，最大限度减少用户干预。
在非凸问题（如深度神经网络）中提升收敛性和泛化性能，且无需专家调优的超参数。

提出的方法

随时间自适应增大小批量大小，以在随机梯度估计中保持近乎恒定的信噪比。
使用恒定步长或自动回溯线搜索，避免依赖递减的步长调度。
采用基于 Barzilai-Borwein 曲率的自适应步长方法，利用低方差梯度实现更快收敛。
在不假设目标函数为凸的情况下，仍保持收敛性保证。
由于在接近解时近似梯度趋于消失，可在满足 Polyak-Łojasiewicz 不等式的优化问题中实现自动停止条件。
通过使用更精确的大批量梯度，分摊高阶方法（如 L-BFGS）的计算开销。

实验结果

研究问题

RQ1自适应小批量大小的增长是否能稳定梯度估计，并在 SGD 中实现恒定或自动调整的步长？
RQ2在非凸优化中，保持梯度信噪比恒定是否能带来更快的收敛速度和更好的泛化性能？
RQ3Big Batch SGD 是否能消除对人工学习率调优的需求，同时在性能上匹配或超越调优后的 SGD？
RQ4在深度学习基准测试中，Big Batch SGD 与 Adadelta 和 L-BFGS 等自适应方法相比表现如何？
RQ5来自大批次的高保真梯度是否能支持在优化中实现自动停止条件？

主要发现

在 CIFAR-10、SVHN 和 MNIST 上，采用回溯线搜索的 Big Batch SGD 在无需超参数调优的情况下，性能优于固定步长 SGD 和 Adadelta，测试准确率相当或更优。
该方法实现了与精细调优 SGD 相当的性能，消除了对学习率调度进行大规模网格搜索的需求。
Big Batch AdaDelta 在大规模数据集（CIFAR-10 和 SVHN）上的表现优于标准 AdaDelta，而在 MNIST 上性能无显著差异。
基于大批次的 Barzilai-Borwein 自适应步长方法在凸问题上的收敛速度优于回溯线搜索。
大批次方法因在接近收敛时梯度近似趋于消失，可在 Polyak-Łojasiewicz 问题中实现自动停止。
由于大批次带来更高的计算-通信比，该方法在分布式设置中具有极高效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。