QUICK REVIEW

[论文解读] On Variance Reduction in Stochastic Gradient Descent and its Asynchronous Variants

Sashank J. Reddi, Ahmed Hefny|arXiv (Cornell University)|Jun 23, 2015

Stochastic Gradient Optimization Techniques参考文献 27被引用 111

一句话总结

本文提出了一种方差减少随机梯度下降（SGD）算法的统一框架，使异步变体的开发成为可能，进而在稀疏机器学习设置中实现近线性加速。该文引入了一种类似SVRG的异步算法，具有可证明的线性收敛性，在实践中优于标准SGD和非方差减少的异步方法。

ABSTRACT

We study optimization algorithms based on variance reduction for stochastic gradient descent (SGD). Remarkable recent progress has been made in this direction through development of algorithms like SAG, SVRG, SAGA. These algorithms have been shown to outperform SGD, both theoretically and empirically. However, asynchronous versions of these algorithms---a crucial requirement for modern large-scale applications---have not been studied. We bridge this gap by presenting a unifying framework for many variance reduction techniques. Subsequently, we propose an asynchronous algorithm grounded in our framework, and prove its fast convergence. An important consequence of our general approach is that it yields asynchronous versions of variance reduction algorithms such as SVRG and SAGA as a byproduct. Our method achieves near linear speedup in sparse settings common to machine learning. We demonstrate the empirical performance of our method through a concrete realization of asynchronous SVRG.

研究动机与目标

解决大规模机器学习中异步方差减少SGD缺乏理论收敛保证的问题。
将SAG、SVRG和SAGA等现有方差减少技术统一到一个正式框架下。
基于该框架开发一种保持快速收敛性的异步并行算法。
在稀疏数据场景中展示经验加速效果，验证理论预测的近线性加速。
将方差减少技术的应用扩展到现代分布式和异步计算环境。

提出的方法

作者提出了一种通用算法框架，为每个分量函数f_i维护辅助变量α_i^t，通过结构化的梯度更新实现方差减少。
该框架包含一个ScheduleUpdate子程序，用于确定辅助变量的更新方式，从而可实例化SVRG和SAGA等已知方法。
从该框架推导出一种异步变体Hsag，利用延迟梯度和无锁更新实现并行执行。
该方法采用步长η、动量参数β和正则化参数c，通过参数调优确保线性收敛。
收敛性分析基于使用Bregman散度和方差分解来界定梯度估计的期望平方范数。
在强凸性和Lipschitz梯度假设下，理论保证了期望意义下的线性收敛。

实验结果

研究问题

RQ1能否开发一个统一框架，系统地描述和分析SAG、SVRG和SAGA等方差减少SGD方法？
RQ2能否设计出具有可证明线性收敛性的这些方差减少方法的异步变体？
RQ3这些异步算法在稀疏机器学习设置中是否实现了近线性加速？
RQ4所提出的异步方差减少方法与非方差减少的异步SGD相比性能如何？
RQ5何种参数设置可确保在同步和异步设置下的快速收敛？

主要发现

所提出的Hsag算法在异步更新下，对光滑且强凸的有限和问题实现了线性收敛。
在高条件数情形（L/λ = n）下，该算法以O(n log(1/ε))的总计算复杂度达到ε-精度，与批量梯度下降的理论下界一致，但实际性能更优。
在稀疏数据设置中，该方法相对于处理器数量实现了近线性加速，与理论预测一致。
实验结果表明，与非方差减少的异步SGD相比，该方法展现出显著加速，证实了方差减少在并行环境中的理论优势。
该框架自然地导出SVRG和SAGA的异步版本作为特例，证明了其通用性和可扩展性。
通过更精细的分析可推导出更紧的收敛常数，如SVRG和SAGA的情形所示，表明仍有进一步优化的空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。