[论文解读] Fast Stochastic Methods for Nonsmooth Nonconvex Optimization
本文提出了 ProxSVRG 和 ProxSAGA——针对非光滑非凸有限和问题的新型随机算法,采用固定小批量大小,可保证收敛至驻点,其收敛速率与实际性能均优于 ProxSGD 和近端梯度下降法,在非负主成分分析任务中表现更优。
We analyze stochastic algorithms for optimizing nonconvex, nonsmooth finite-sum problems, where the nonconvex part is smooth and the nonsmooth part is convex. Surprisingly, unlike the smooth case, our knowledge of this fundamental problem is very limited. For example, it is not known whether the proximal stochastic gradient method with constant minibatch converges to a stationary point. To tackle this issue, we develop fast stochastic algorithms that provably converge to a stationary point for constant minibatches. Furthermore, using a variant of these algorithms, we show provably faster convergence than batch proximal gradient descent. Finally, we prove global linear convergence rate for an interesting subclass of nonsmooth nonconvex functions, that subsumes several recent works. This paper builds upon our recent series of papers on fast stochastic methods for smooth nonconvex optimization [22, 23], with a novel analysis for nonconvex and nonsmooth functions.
研究动机与目标
- 填补对非光滑非凸有限和优化中随机方法理解的关键空白。
- 证明在固定小批量大小下,近端随机算法的收敛性,该问题在标准 ProxSGD 中尚未得到证明。
- 提出在保持固定小批量大小的同时,收敛速度优于批量近端梯度下降法的方法。
- 为一类有意义的非光滑非凸函数建立全局线性收敛性。
- 在非负主成分分析任务中,实证验证方差减少方法优于 ProxSGD。
提出的方法
- 提出 ProxSVRG 和 ProxSAGA 作为 SVRG 和 SAGA 的近端变体,针对非凸、非光滑问题引入方差减少机制。
- 在随机梯度更新中使用固定小批量大小,与 ProxSGD 所需随 1/ϵ 增大的批量大小不同。
- 利用增量一阶预言机(IFO)和近端预言机(PO)来建模计算复杂度。
- 引入控制变量机制以降低梯度方差,从而在固定小批量下实现稳定收敛。
- 在 ProxSVRG 中定期进行全梯度计算,以维持低方差。
- 在 ProxSVRG 和 ProxSAGA 中采用固定步长,与 ProxSGD 所需递减步长形成对比。
实验结果
研究问题
- RQ1在非光滑非凸问题中,近端随机梯度方法能否在固定小批量大小下收敛至驻点?
- RQ2如 ProxSVRG 和 ProxSAGA 等方差减少的近端方法,是否在收敛速度上优于 ProxSGD 和批量近端梯度下降法?
- RQ3对于非光滑非凸函数的有意义子类,是否可能实现全局线性收敛?
- RQ4在实践中,能否有效使用固定小批量大小而不牺牲收敛性保证?
- RQ5在真实世界中的非凸、非光滑机器学习问题中,ProxSVRG 和 ProxSAGA 与 ProxSGD 的实证表现如何比较?
主要发现
- ProxSVRG 和 ProxSAGA 达到 ϵ-最优性所需的 IFO 复杂度为 O(1/ϵ),PO 复杂度也为 O(1/ϵ),与 ProxSGD 相当,但采用固定小批量。
- 所提方法在固定小批量大小下收敛至驻点,解决了非光滑非凸优化中的一个关键开放问题。
- ProxSVRG 和 ProxSAGA 的收敛速度优于批量近端梯度下降法,且在迭代复杂度上具有理论优势。
- 在非负主成分分析(NN-PCA)上的实证结果表明,ProxSVRG 和 ProxSAGA 在固定小批量大小下,目标函数值减少优于 ProxSGD。
- 与 ProxSGD 相比,这些算法的步长调节更简单,固定步长即可获得更优性能。
- 在多个数据集上,ProxSVRG 与 ProxSAGA 之间未观察到显著性能差异,表明方差减少方法具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。