[论文解读] Towards Optimal One Pass Large Scale Learning with Averaged Stochastic Gradient Descent
本文提出了一种用于平均随机梯度下降(ASGD)的学习率调度策略,可在大规模数据集上实现单次遍历的最优收敛,显著减少了达到渐近性能所需的样本数量。该方法在线性分类器上实现了最先进水平的准确率,计算开销极低,相较于标准SGD及其他优化算法,在测试误差和训练效率方面均表现更优。
For large scale learning problems, it is desirable if we can obtain the optimal model parameters by going through the data in only one pass. Polyak and Juditsky (1992) showed that asymptotically the test performance of the simple average of the parameters obtained by stochastic gradient descent (SGD) is as good as that of the parameters which minimize the empirical cost. However, to our knowledge, despite its optimal asymptotic convergence rate, averaged SGD (ASGD) received little attention in recent research on large scale learning. One possible reason is that it may take a prohibitively large number of training samples for ASGD to reach its asymptotic region for most real problems. In this paper, we present a finite sample analysis for the method of Polyak and Juditsky (1992). Our analysis shows that it indeed usually takes a huge number of samples for ASGD to reach its asymptotic region for improperly chosen learning rate. More importantly, based on our analysis, we propose a simple way to properly set learning rate so that it takes a reasonable amount of data for ASGD to reach its asymptotic region. We compare ASGD using our proposed learning rate with other well known algorithms for training large scale linear classifiers. The experiments clearly show the superiority of ASGD.
研究动机与目标
- 解决尽管ASGD具有最优渐近收敛性,但在大规模学习中仍缺乏实际应用的问题。
- 阐明为何在标准学习率选择下,ASGD通常需要极大量的样本才能进入其渐近区域。
- 通过有限样本分析指导设计一种学习率调度策略,以加速ASGD收敛至最优区域。
- 通过实证验证,证明所提出的调度策略使ASGD仅需一次数据遍历即可实现更优的测试准确率。
- 展示ASGD结合新学习率调度策略后,在准确率、鲁棒性和训练速度方面均优于其他最先进算法。
提出的方法
- 对Polyak和Juditsky提出的ASGD方法进行有限样本分析,量化达到渐近收敛区域所需的样本数量。
- 推导出一种依赖数据的学习率调度策略,基于Hessian矩阵的最小特征值和正则化参数,确保ASGD在合理样本数内达到最优性能区域。
- 使用SGD参数的运行平均值作为最终模型估计器,即 $\bar{\theta}_t = \frac{1}{t}\sum_{j=1}^{t}\theta_j$,以利用其优越的渐近性质。
- 将所提学习率应用于具有凸、光滑损失函数(如平方合页损失)和L2正则化的线性模型。
- 采用一种实用的学习率调度策略 $\gamma_t = \frac{\gamma_0}{1 + \gamma_0 \lambda_0 t}$,其中 $\lambda_0$ 通过正则化参数 $\lambda$ 近似得到。
- 在合成数据集和真实世界数据集(包括MNIST、RCV1以及大规模文本和图像分类任务)上验证了该方法。
实验结果
研究问题
- RQ1为何尽管ASGD具有最优渐近收敛性,但在近年来的大规模学习研究中仍受到有限关注?
- RQ2在标准学习率调度下,ASGD通常需要多少训练样本才能进入其渐近性能区域?
- RQ3能否通过有限样本分析设计一种学习率调度策略,以减少样本数并加速ASGD收敛至最优区域?
- RQ4ASGD结合所提学习率调度策略后,是否在测试准确率和训练效率方面优于其他最先进优化算法?
- RQ5尽管理论假设要求损失函数光滑,ASGD在使用所提学习率调度策略时,是否也能在非光滑损失函数(如合页损失)上表现良好?
主要发现
- 所提学习率调度策略使ASGD能在合理样本数内达到其渐近性能区域,与标准学习率相比显著降低了数据需求。
- ASGD结合新学习率调度策略后,在所有评估数据集(包括MNIST9、RCV1和合成数据)上均实现了最低的测试误差率,通常在仅一次数据遍历之后即超越其他算法。
- ASGD表现出更优的鲁棒性,其性能曲线更稳定、波动更小,优于SGD、SGDQN和oLBFGS等方法。
- 该方法仅通过一次数据遍历即可实现最先进水平的准确率,而其他算法在相同阶段仍表现欠佳。
- 尽管理论假设要求损失函数光滑,ASGD结合所提学习率在非光滑合页损失上仍表现良好,表明其具有更广泛的应用潜力。
- 每轮训练时间与其他方法相当,意味着ASGD在达到高准确率方面比竞争算法更快,尤其是在满足单次遍历要求时优势更为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。