[论文解读] Faster Stochastic Alternating Direction Method of Multipliers for Nonconvex Optimization
本文提出 SPIDER-ADMM,一种基于新型随机路径积分微分估计器(SPIDER)的更快的非凸优化随机交替方向乘子法(ADMM)。其实现了最优的增量一阶预言机(IFO)复杂度 $\mathcal{O}(n + n^{1/2}\epsilon^{-1})$,相比现有方法提升了 $\mathcal{O}(n^{1/6})$ 的因子,并为分析非凸随机 ADMM 建立了新的理论框架。
In this paper, we propose a faster stochastic alternating direction method of multipliers (ADMM) for nonconvex optimization by using a new stochastic path-integrated differential estimator (SPIDER), called as SPIDER-ADMM. Moreover, we prove that the SPIDER-ADMM achieves a record-breaking incremental first-order oracle (IFO) complexity of $\mathcal{O}(n+n^{1/2}ε^{-1})$ for finding an $ε$-approximate stationary point, which improves the deterministic ADMM by a factor $\mathcal{O}(n^{1/2})$, where $n$ denotes the sample size. As one of major contribution of this paper, we provide a new theoretical analysis framework for nonconvex stochastic ADMM methods with providing the optimal IFO complexity. Based on this new analysis framework, we study the unsolved optimal IFO complexity of the existing non-convex SVRG-ADMM and SAGA-ADMM methods, and prove they have the optimal IFO complexity of $\mathcal{O}(n+n^{2/3}ε^{-1})$. Thus, the SPIDER-ADMM improves the existing stochastic ADMM methods by a factor of $\mathcal{O}(n^{1/6})$. Moreover, we extend SPIDER-ADMM to the online setting, and propose a faster online SPIDER-ADMM. Our theoretical analysis shows that the online SPIDER-ADMM has the IFO complexity of $\mathcal{O}(ε^{-\frac{3}{2}})$, which improves the existing best results by a factor of $\mathcal{O}(ε^{-\frac{1}{2}})$. Finally, the experimental results on benchmark datasets validate that the proposed algorithms have faster convergence rate than the existing ADMM algorithms for nonconvex optimization.
研究动机与目标
- 解决非凸随机 ADMM 方法在增量一阶预言机(IFO)复杂度分析方面的不足。
- 回答在非凸设置下,随机 ADMM 是否能实现低于确定性 ADMM 的 IFO 复杂度。
- 为具有最优收敛保证的非凸随机 ADMM 开发新的理论分析框架。
- 通过方差缩减技术,改进现有非凸随机 ADMM 方法(如 SVRG-ADMM 和 SAGA-ADMM)的 IFO 复杂度。
- 将所提方法扩展至在线设置,并在该场景下实现更优的 IFO 复杂度。
提出的方法
- 提出 SPIDER-ADMM,一种使用 SPIDER 估计器以减少非凸优化中梯度方差的随机 ADMM 变体。
- 提出一种基于路径积分微分估计器的新理论分析框架,用于界定增广拉格朗日函数梯度的期望范数。
- 通过分析增广拉格朗日函数梯度的期望距离,推导收敛保证,确保收敛至 $\epsilon$-近似驻点。
- 通过将迭代次数与期望精度 $\epsilon$ 及样本量 $n$ 的关系,建立 IFO 复杂度边界。
- 将 SPIDER-ADMM 扩展至在线设置,提出在线 SPIDER-ADMM,其 IFO 复杂度为 $\mathcal{O}(\epsilon^{-3/2})$。
- 采用步长 $\eta = \frac{\alpha \sigma_{\min}(G)}{17L}$ 和惩罚参数 $\rho = \frac{2\sqrt{2031}\kappa_G}{\sigma^{A}_{\min}\alpha}$ 以确保稳定性和收敛性。
实验结果
研究问题
- RQ1在非凸优化中,随机 ADMM 是否能实现低于确定性 ADMM 的增量一阶预言机(IFO)复杂度?
- RQ2非凸随机 ADMM 方法可实现的最优 IFO 复杂度是多少?
- RQ3现有的非凸 SVRG-ADMM 和 SAGA-ADMM 方法是否实现了最优 IFO 复杂度?若否,其真实复杂度是多少?
- RQ4SPIDER 估计器能否有效集成到非凸问题的 ADMM 中,以实现更快的收敛?
- RQ5在在线非凸 ADMM 设置下,最优 IFO 复杂度是多少?是否可以进一步改进?
主要发现
- SPIDER-ADMM 在非凸有限和问题中,寻找 $\epsilon$-近似驻点的 IFO 复杂度为 $\mathcal{O}(n + n^{1/2}\epsilon^{-1})$。
- 该复杂度相比确定性 ADMM 提升了 $\mathcal{O}(n^{1/2})$ 因子,相比现有随机 ADMM 方法提升了 $\mathcal{O}(n^{1/6})$ 因子。
- 本文证明了 SVRG-ADMM 和 SAGA-ADMM 的最优 IFO 复杂度为 $\mathcal{O}(n + n^{2/3}\epsilon^{-1})$,解决了其效率方面的一个开放问题。
- 在线 SPIDER-ADMM 实现了 $\mathcal{O}(\epsilon^{-3/2})$ 的 IFO 复杂度,相比现有最佳结果提升了 $\mathcal{O}(\epsilon^{-1/2})$ 因子。
- 理论分析证实,在适当的参数设置下,所提框架可确保以 $\mathcal{O}(1/T)$ 的速率收敛至 $\epsilon$-近似驻点。
- 在基准数据集上的实验结果验证了 SPIDER-ADMM 在非凸优化中相比现有 ADMM 方法收敛更快。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。