QUICK REVIEW

[论文解读] Fast Stochastic Alternating Direction Method of Multipliers

Leon Wenliang Zhong, James T. Kwok|arXiv (Cornell University)|Aug 16, 2013

Sparse and Compressive Sensing Techniques参考文献 8被引用 24

一句话总结

本文提出了一种快速随机ADMM算法，在线性化ADMM框架中逐步近似完整梯度，实现了与批量ADMM相同的最优收敛速率$\mathcal{O}(1/T)$，同时保持了较低的每次迭代复杂度。该方法在凸和强凸设置下均显著优于现有的随机ADMM变体。

ABSTRACT

In this paper, we propose a new stochastic alternating direction method of multipliers (ADMM) algorithm, which incrementally approximates the full gradient in the linearized ADMM formulation. Besides having a low per-iteration complexity as existing stochastic ADMM algorithms, the proposed algorithm improves the convergence rate on convex problems from $O(\frac 1 {\sqrt{T}})$ to $O(\frac 1 T)$, where $T$ is the number of iterations. This matches the convergence rate of the batch ADMM algorithm, but without the need to visit all the samples in each iteration. Experiments on the graph-guided fused lasso demonstrate that the new algorithm is significantly faster than state-of-the-art stochastic and batch ADMM algorithms.

研究动机与目标

弥合随机ADMM与批量ADMM算法之间的收敛速率差距，因为随机变体通常以$\mathcal{O}(1/\sqrt{T})$的速率收敛。
开发一种随机ADMM变体，在保持低每次迭代复杂度的同时，实现批量ADMM的更快$\mathcal{O}(1/T)$收敛速率。
在机器学习应用中实现高效的大规模优化，例如图引导融合Lasso，其中全批量方法在计算上不可行。
弥合结构化稀疏正则化问题中在线/随机方法与批量方法之间的性能差距。
为具有高维数据的大规模学习任务提供一种实用且可扩展的批量ADMM替代方案。

提出的方法

提出一种新颖的随机ADMM变体，使用增量梯度近似替代线性化ADMM更新中的完整梯度。
提出两种变体：SA-ADMM（使用标准更新）和SA-IU-ADMM（使用不精确Uzawa方法），两者均旨在保持计算效率。
利用增广拉格朗日函数中的线性化，避免非凸或复杂子问题，从而实现高效的闭式更新。
采用梯度估计的平均策略，降低方差并加速收敛，且不增加每次迭代的成本。
使用常数步长规则，并通过精心选择的比例常数确保收敛性和稳定性。
通过将目标函数分解为数据拟合项$\phi(x)$和正则化项$\psi(y)$，并施加一致性约束$Ax + By = c$，将该方法应用于正则化风险最小化问题。

实验结果

研究问题

RQ1能否使随机ADMM算法在保持低每次迭代复杂度的同时，实现与批量ADMM相同的$\mathcal{O}(1/T)$收敛速率？
RQ2在线性化ADMM框架中使用增量梯度近似，是否能比现有随机ADMM方法实现更快的收敛速度？
RQ3在真实世界机器学习数据集上，该方法与最先进随机ADMM和批量ADMM算法的实证比较结果如何？
RQ4当添加$\ell_2$-正则化项时，该算法在强凸目标函数下是否仍能保持快速收敛？
RQ5与标准ADMM更新相比，不精确Uzawa方法（SA-IU-ADMM）对收敛速度和稳定性有何影响？

主要发现

所提出的SA-IU-ADMM算法在所有测试数据集上均实现了最快收敛速度，优于所有随机和批量ADMM变体。
在a9a、covertype、quantum、rcv1和sido数据集上，SA-IU-ADMM在更少的数据有效遍历次数内达到更低的目标值，优于STOC-ADMM、OPG-ADMM、RDA-ADMM和批量ADMM。
该算法实现了$\mathcal{O}(1/T)$的收敛速率，与批量ADMM一致，同时保持了随机方法的低每次迭代成本。
在强凸设置下（添加$\ell_2$-正则化），SA-IU-ADMM与其他方法之间的性能差距进一步扩大，证实了其鲁棒性和高效性。
实验表明，尽管批量ADMM具有最优收敛速率，但其每次迭代成本过高，导致其显著慢于所提出的随机方法。
在多个数据集上，该方法在目标值和测试损失方面均表现出一致的优越性，尤其在高维数据（如rcv1和sido）上优势最为显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。