[论文解读] A Variance Reduction Method for Non-Convex Optimization with Improved Convergence under Large Condition Number
该论文提出了一种新颖的、基于SVRG的加速随机算法,用于处理带有非光滑凸项的非凸优化问题,在大条件数条件下实现了更优的梯度复杂度。该方法引入了采样概率递增的分阶段平均解,相较于以往的SVRG风格方法,提供了更强的收敛保证,同时保持了低内存使用。
In this paper, we propose a new SVRG-style acceleated stochastic algorithm for solving a family of non-convex optimization problems whose objective consists of a sum of $n$ smooth functions and a non-smooth convex function. Our major goal is to improve the convergence of SVRG-style stochastic algorithms to stationary points under a setting with a large condition number $c$ - the ratio between the smoothness constant and the negative curvature constant. The proposed algorithm achieves the best known gradient complexity when $c\geq \Omega(n)$, which was achieved previously by a SAGA-style accelerated stochastic algorithm. Compared with the SAGA-style accelerated stochastic algorithm, the proposed algorithm is more practical due to its low memory cost that is inherited from previous SVRG-style algorithms. Compared with previous studies on SVRG-style stochastic algorithms, our theory provides much stronger results in terms of (i) reduced gradient complexity under a large condition number; and (ii) that the convergence is proved for a sampled stagewise averaged solution that is selected from all stagewise averaged solutions with increasing sampling probabilities instead of for a uniformly sampled solutions across all iterations.
研究动机与目标
- 为解决在条件数较大时,SVRG风格算法在非凸优化中收敛速度慢的问题。
- 改进光滑函数之和与非光滑凸项组合的非凸问题的梯度复杂度。
- 在保持SVRG低内存优势的同时,实现与SAGA风格方法相当的收敛保证。
- 为非均匀采样的分阶段平均解建立收敛性,提升理论鲁棒性。
提出的方法
- 该算法采用受SVRG启发的方差缩减机制,定期保存梯度快照。
- 采用分阶段平均策略,各阶段内解的平均采用递增的采样概率。
- 结合随机优化中的加速技术,以在高条件数下降低梯度复杂度。
- 通过在所有分阶段平均解上采用非均匀采样策略,确保收敛至驻点。
- 通过仅存储当前迭代点和单个快照梯度,保持低内存使用,优于SAGA风格方法。
实验结果
研究问题
- RQ1SVRG风格算法能否在条件数较大的非凸问题中实现改进的梯度复杂度?
- RQ2能否证明非均匀采样分阶段平均解的收敛性,而非仅限于均匀采样?
- RQ3在高条件数下,能否提升SVRG风格方法的收敛速率,使其达到或超过SAGA风格加速方法的性能?
- RQ4在非凸优化中,能否在保持SAGA风格收敛性能的同时,维持低内存使用?
主要发现
- 当条件数 c ≥ Ω(n) 时,所提算法实现了目前已知最优的梯度复杂度,与先前SAGA风格结果一致。
- 通过在分阶段平均解中采用递增采样概率,该方法提供了强于以往SVRG风格方法的理论收敛保证。
- 该算法保持了低内存开销,尽管收敛性能与SAGA风格方法相近,但实际应用中更具可行性。
- 首次为非均匀采样分阶段平均解建立了收敛性证明,改进了以往工作中对均匀采样假设的依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。