Skip to main content
QUICK REVIEW

[论文解读] Fast Stochastic Alternating Direction Method of Multipliers

Leon Wenliang Zhong, James T. Kwok|arXiv (Cornell University)|Aug 16, 2013
Sparse and Compressive Sensing Techniques参考文献 8被引用 24
一句话总结

本文提出了一种快速随机ADMM算法,在线性化ADMM框架中逐步近似完整梯度,实现了与批量ADMM相同的最优收敛速率$\mathcal{O}(1/T)$,同时保持了较低的每次迭代复杂度。该方法在凸和强凸设置下均显著优于现有的随机ADMM变体。

ABSTRACT

In this paper, we propose a new stochastic alternating direction method of multipliers (ADMM) algorithm, which incrementally approximates the full gradient in the linearized ADMM formulation. Besides having a low per-iteration complexity as existing stochastic ADMM algorithms, the proposed algorithm improves the convergence rate on convex problems from $O(\frac 1 {\sqrt{T}})$ to $O(\frac 1 T)$, where $T$ is the number of iterations. This matches the convergence rate of the batch ADMM algorithm, but without the need to visit all the samples in each iteration. Experiments on the graph-guided fused lasso demonstrate that the new algorithm is significantly faster than state-of-the-art stochastic and batch ADMM algorithms.

研究动机与目标

  • 弥合随机ADMM与批量ADMM算法之间的收敛速率差距,因为随机变体通常以$\mathcal{O}(1/\sqrt{T})$的速率收敛。
  • 开发一种随机ADMM变体,在保持低每次迭代复杂度的同时,实现批量ADMM的更快$\mathcal{O}(1/T)$收敛速率。
  • 在机器学习应用中实现高效的大规模优化,例如图引导融合Lasso,其中全批量方法在计算上不可行。
  • 弥合结构化稀疏正则化问题中在线/随机方法与批量方法之间的性能差距。
  • 为具有高维数据的大规模学习任务提供一种实用且可扩展的批量ADMM替代方案。

提出的方法

  • 提出一种新颖的随机ADMM变体,使用增量梯度近似替代线性化ADMM更新中的完整梯度。
  • 提出两种变体:SA-ADMM(使用标准更新)和SA-IU-ADMM(使用不精确Uzawa方法),两者均旨在保持计算效率。
  • 利用增广拉格朗日函数中的线性化,避免非凸或复杂子问题,从而实现高效的闭式更新。
  • 采用梯度估计的平均策略,降低方差并加速收敛,且不增加每次迭代的成本。
  • 使用常数步长规则,并通过精心选择的比例常数确保收敛性和稳定性。
  • 通过将目标函数分解为数据拟合项$\phi(x)$和正则化项$\psi(y)$,并施加一致性约束$Ax + By = c$,将该方法应用于正则化风险最小化问题。

实验结果

研究问题

  • RQ1能否使随机ADMM算法在保持低每次迭代复杂度的同时,实现与批量ADMM相同的$\mathcal{O}(1/T)$收敛速率?
  • RQ2在线性化ADMM框架中使用增量梯度近似,是否能比现有随机ADMM方法实现更快的收敛速度?
  • RQ3在真实世界机器学习数据集上,该方法与最先进随机ADMM和批量ADMM算法的实证比较结果如何?
  • RQ4当添加$\ell_2$-正则化项时,该算法在强凸目标函数下是否仍能保持快速收敛?
  • RQ5与标准ADMM更新相比,不精确Uzawa方法(SA-IU-ADMM)对收敛速度和稳定性有何影响?

主要发现

  • 所提出的SA-IU-ADMM算法在所有测试数据集上均实现了最快收敛速度,优于所有随机和批量ADMM变体。
  • 在a9a、covertype、quantum、rcv1和sido数据集上,SA-IU-ADMM在更少的数据有效遍历次数内达到更低的目标值,优于STOC-ADMM、OPG-ADMM、RDA-ADMM和批量ADMM。
  • 该算法实现了$\mathcal{O}(1/T)$的收敛速率,与批量ADMM一致,同时保持了随机方法的低每次迭代成本。
  • 在强凸设置下(添加$\ell_2$-正则化),SA-IU-ADMM与其他方法之间的性能差距进一步扩大,证实了其鲁棒性和高效性。
  • 实验表明,尽管批量ADMM具有最优收敛速率,但其每次迭代成本过高,导致其显著慢于所提出的随机方法。
  • 在多个数据集上,该方法在目标值和测试损失方面均表现出一致的优越性,尤其在高维数据(如rcv1和sido)上优势最为显著。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。