Skip to main content
QUICK REVIEW

[论文解读] On the Linear Convergence of the Alternating Direction Method of Multipliers

Mingyi Hong, Zhi‐Quan Luo|arXiv (Cornell University)|Aug 20, 2012
Sparse and Compressive Sensing Techniques参考文献 52被引用 153
一句话总结

该论文建立了交替方向乘子法(ADMM)在最小化任意数量凸可分函数之和时的全局线性收敛性,即使在缺乏强凸性的情况下也成立。该分析基于误差界和邻近残差,证明了在对偶步长足够小时实现线性收敛,从而解决了多块及非强凸问题长期悬而未决的开放性问题。

ABSTRACT

We analyze the convergence rate of the alternating direction method of multipliers (ADMM) for minimizing the sum of two or more nonsmooth convex separable functions subject to linear constraints. Previous analysis of the ADMM typically assumes that the objective function is the sum of only two convex functions defined on two separable blocks of variables even though the algorithm works well in numerical experiments for three or more blocks. Moreover, there has been no rate of convergence analysis for the ADMM without strong convexity in the objective function. In this paper we establish the global linear convergence of the ADMM for minimizing the sum of any number of convex separable functions. This result settles a key question regarding the convergence of the ADMM when the number of blocks is more than two or if the strong convexity is absent. It also implies the linear convergence of the ADMM for several contemporary applications including LASSO, Group LASSO and Sparse Group LASSO without any strong convexity assumption. Our proof is based on estimating the distance from a dual feasible solution to the optimal dual solution set by the norm of a certain proximal residual, and by requiring the dual stepsize to be sufficiently small.

研究动机与目标

  • 解决ADMM在多于两个块或缺乏强凸性的问题中是否线性收敛的开放性问题。
  • 将收敛性分析从经典的两块设置扩展至更广泛的情形,因为在该设置中ADMM已知具有线性收敛性。
  • 为ADMM在LASSO、Group LASSO和Sparse Group LASSO等应用中的经验成功提供理论基础,且无需强凸性假设。
  • 通过误差界技术和邻近残差估计建立线性收敛性,且不依赖于强凸性。
  • 将收敛性保证推广至具有多个可分块的结构化凸优化问题的广泛类别。

提出的方法

  • 作者通过使用邻近残差的范数来估计对偶可行解到最优对偶解集的距离,从而分析ADMM。
  • 他们提出了一种新颖的误差界条件,将原始不可行性和对偶不可行性与邻近残差的范数联系起来。
  • 证明依赖于从增广拉格朗日函数构造的辅助函数的强凸性,即使原始问题本身不具有强凸性。
  • 一个关键技术步骤是利用对偶函数的梯度和残差向量,对对偶迭代值与最优对偶解之间的差异进行有界控制。
  • 该分析假设对偶步长足够小,以确保线性收敛,该条件通过最优解集距离的二次上界推导得出。
  • 该方法使用一个标度函数和一个映射M,以刻画原始-对偶迭代值与最优解集之间的关系。

实验结果

研究问题

  • RQ1当ADMM应用于具有多于两个变量块的问题时,其是否线性收敛?
  • RQ2在目标函数中不假设强凸性的情况下,能否建立ADMM的线性收敛性?
  • RQ3在多块及非强凸设置下,对偶步长的何种条件可确保ADMM的线性收敛?
  • RQ4在缺乏强凸性的情况下,如何利用邻近残差来有界控制到最优解集的距离?
  • RQ5误差界技术能否应用于推导ADMM在一般凸可分问题中的全局线性收敛性?

主要发现

  • ADMM在最小化任意数量凸可分函数之和时,即使在缺乏强凸性的情况下,也表现出全局线性收敛性。
  • 在线性收敛性成立的条件下,对偶步长必须足够小,以确保误差界成立。
  • 收敛速率通过一个依赖于问题参数(如利普希茨常数和辅助函数的强凸性参数)的常数τ来量化。
  • 该结果意味着LASSO、Group LASSO和Sparse Group LASSO在不需强凸性假设的情况下也具有线性收敛性。
  • 该分析为ADMM在多块及非强凸问题中的经验成功提供了理论依据。
  • 利用邻近残差和误差界的技术证明方法,为一类广泛结构化的凸优化问题提供了通用的理论框架。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。