[论文解读] Fast Stochastic Alternating Direction Method of Multipliers
本文提出了一种快速随机ADMM算法,在线性化ADMM框架中逐步近似完整梯度,实现了与批量ADMM相同的最优收敛速率$\mathcal{O}(1/T)$,同时保持了较低的每次迭代复杂度。该方法在凸和强凸设置下均显著优于现有的随机ADMM变体。
In this paper, we propose a new stochastic alternating direction method of multipliers (ADMM) algorithm, which incrementally approximates the full gradient in the linearized ADMM formulation. Besides having a low per-iteration complexity as existing stochastic ADMM algorithms, the proposed algorithm improves the convergence rate on convex problems from $O(\frac 1 {\sqrt{T}})$ to $O(\frac 1 T)$, where $T$ is the number of iterations. This matches the convergence rate of the batch ADMM algorithm, but without the need to visit all the samples in each iteration. Experiments on the graph-guided fused lasso demonstrate that the new algorithm is significantly faster than state-of-the-art stochastic and batch ADMM algorithms.
研究动机与目标
- 弥合随机ADMM与批量ADMM算法之间的收敛速率差距,因为随机变体通常以$\mathcal{O}(1/\sqrt{T})$的速率收敛。
- 开发一种随机ADMM变体,在保持低每次迭代复杂度的同时,实现批量ADMM的更快$\mathcal{O}(1/T)$收敛速率。
- 在机器学习应用中实现高效的大规模优化,例如图引导融合Lasso,其中全批量方法在计算上不可行。
- 弥合结构化稀疏正则化问题中在线/随机方法与批量方法之间的性能差距。
- 为具有高维数据的大规模学习任务提供一种实用且可扩展的批量ADMM替代方案。
提出的方法
- 提出一种新颖的随机ADMM变体,使用增量梯度近似替代线性化ADMM更新中的完整梯度。
- 提出两种变体:SA-ADMM(使用标准更新)和SA-IU-ADMM(使用不精确Uzawa方法),两者均旨在保持计算效率。
- 利用增广拉格朗日函数中的线性化,避免非凸或复杂子问题,从而实现高效的闭式更新。
- 采用梯度估计的平均策略,降低方差并加速收敛,且不增加每次迭代的成本。
- 使用常数步长规则,并通过精心选择的比例常数确保收敛性和稳定性。
- 通过将目标函数分解为数据拟合项$\phi(x)$和正则化项$\psi(y)$,并施加一致性约束$Ax + By = c$,将该方法应用于正则化风险最小化问题。
实验结果
研究问题
- RQ1能否使随机ADMM算法在保持低每次迭代复杂度的同时,实现与批量ADMM相同的$\mathcal{O}(1/T)$收敛速率?
- RQ2在线性化ADMM框架中使用增量梯度近似,是否能比现有随机ADMM方法实现更快的收敛速度?
- RQ3在真实世界机器学习数据集上,该方法与最先进随机ADMM和批量ADMM算法的实证比较结果如何?
- RQ4当添加$\ell_2$-正则化项时,该算法在强凸目标函数下是否仍能保持快速收敛?
- RQ5与标准ADMM更新相比,不精确Uzawa方法(SA-IU-ADMM)对收敛速度和稳定性有何影响?
主要发现
- 所提出的SA-IU-ADMM算法在所有测试数据集上均实现了最快收敛速度,优于所有随机和批量ADMM变体。
- 在a9a、covertype、quantum、rcv1和sido数据集上,SA-IU-ADMM在更少的数据有效遍历次数内达到更低的目标值,优于STOC-ADMM、OPG-ADMM、RDA-ADMM和批量ADMM。
- 该算法实现了$\mathcal{O}(1/T)$的收敛速率,与批量ADMM一致,同时保持了随机方法的低每次迭代成本。
- 在强凸设置下(添加$\ell_2$-正则化),SA-IU-ADMM与其他方法之间的性能差距进一步扩大,证实了其鲁棒性和高效性。
- 实验表明,尽管批量ADMM具有最优收敛速率,但其每次迭代成本过高,导致其显著慢于所提出的随机方法。
- 在多个数据集上,该方法在目标值和测试损失方面均表现出一致的优越性,尤其在高维数据(如rcv1和sido)上优势最为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。