Skip to main content
QUICK REVIEW

[论文解读] Accelerated Variance Reduced Stochastic ADMM

Yuanyuan Liu, Fanhua Shang|arXiv (Cornell University)|Jul 11, 2017
Sparse and Compressive Sensing Techniques参考文献 32被引用 25
一句话总结

本文提出 ASVRG-ADMM,一种将动量加速整合到 SVRG-ADMM 中的加速方差缩减随机 ADMM,实现了通用凸问题的 O(1/T²) 收敛速率和强凸问题的线性收敛,同时保持较低的每轮迭代复杂度和内存使用量。

ABSTRACT

Recently, many variance reduced stochastic alternating direction method of multipliers (ADMM) methods (e.g.\ SAG-ADMM, SDCA-ADMM and SVRG-ADMM) have made exciting progress such as linear convergence rates for strongly convex problems. However, the best known convergence rate for general convex problems is O(1/T) as opposed to O(1/T^2) of accelerated batch algorithms, where $T$ is the number of iterations. Thus, there still remains a gap in convergence rates between existing stochastic ADMM and batch algorithms. To bridge this gap, we introduce the momentum acceleration trick for batch optimization into the stochastic variance reduced gradient based ADMM (SVRG-ADMM), which leads to an accelerated (ASVRG-ADMM) method. Then we design two different momentum term update rules for strongly convex and general convex cases. We prove that ASVRG-ADMM converges linearly for strongly convex problems. Besides having a low per-iteration complexity as existing stochastic ADMM methods, ASVRG-ADMM improves the convergence rate on general convex problems from O(1/T) to O(1/T^2). Our experimental results show the effectiveness of ASVRG-ADMM.

研究动机与目标

  • 弥合随机 ADMM 与加速批量算法之间的收敛速率差距,此前前者在通用凸问题中为 O(1/T),而后者为 O(1/T²)。
  • 开发一种随机 ADMM 变体,实现通用凸问题的加速 O(1/T²) 收敛速率,同时保持较低的每轮迭代复杂度。
  • 将批量优化中的动量加速机制整合到方差缩减的 SVRG-ADMM 框架中,以提升收敛速度。
  • 通过避免存储所有梯度或对偶变量,确保方法保持低内存使用量,区别于某些先前方法。
  • 为强凸和通用凸情况提供理论收敛保证,并进行明确的速率分析。

提出的方法

  • 通过在 SVRG-ADMM 框架中引入 Nesterov 风格的动量,提出 ASVRG-ADMM 以加速收敛。
  • 设计两种针对强凸和通用凸问题的独立动量更新规则。
  • 采用依赖于前一迭代和递减参数序列的递归动量更新机制。
  • 引入李雅普诺夫函数以分析收敛性,结合与原始变量、对偶变量和动量相关的项。
  • 对迭代序列应用加权平均方案,以在方差缩减存在的情况下确保稳定性和收敛性。
  • 利用 ADMM 中辅助变量 y = Ax 的结构,将优化问题分解为可管理的子问题,实现梯度更新与对偶更新的解耦。

实验结果

研究问题

  • RQ1能否成功将批量优化中的动量加速机制适配到具有方差缩减的随机 ADMM 中?
  • RQ2在 SVRG-ADMM 中集成动量是否能提升通用凸问题的收敛速率?
  • RQ3所提出的方法能否在保持低内存和计算成本的前提下,实现强凸问题的线性收敛?
  • RQ4与现有随机 ADMM 变体(如 SAG-ADMM 和 SVRG-ADMM)相比,新方法的收敛速率如何?
  • RQ5在不同凸性假设下,能否为加速随机 ADMM 的收敛性提供理论保证?

主要发现

  • ASVRG-ADMM 在通用凸问题中实现了 O(1/T²) 的收敛速率,比 SAG-ADMM 和 SVRG-ADMM 的 O(1/T) 速率快 T 倍。
  • 对于强凸问题,ASVRG-ADMM 实现了线性收敛,与 SDCA-ADMM 和 SVRG-ADMM 的最佳已知速率相当。
  • 该方法保持了较低的每轮迭代复杂度和 O(d₁d₂) 的内存使用量,无需存储所有梯度或对偶变量。
  • 理论分析通过李雅普诺夫函数验证了收敛性,该函数在迭代过程中追踪原始变量、对偶变量和动量项。
  • 实验结果表明,ASVRG-ADMM 在收敛速度和解的质量方面均优于当前最先进的随机 ADMM 方法。
  • 收敛界依赖于问题特定常数,如利普希茨常数 L、对偶变量有界值 Dλ 和矩阵范数 ||AᵀA||₂,且在分母中显式依赖于 T 的平方。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。