Skip to main content
QUICK REVIEW

[论文解读] Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-\L{}ojasiewicz Condition

Hamed Karimi, Julie Nutini|arXiv (Cornell University)|Aug 16, 2016
Stochastic Gradient Optimization Techniques参考文献 53被引用 75
一句话总结

本文证明了Polyak-Lojasiewicz(PL)不等式为光滑与非光滑优化中梯度法与近端梯度法的线性收敛提供了一个统一且简洁的框架,即使在不满足强凸性条件下依然成立。它表明PL条件弱于先前的条件(如受限割线不等式或二次增长条件),并利用该条件推导出梯度下降、坐标下降、随机梯度方法以及近端方法在最小二乘、逻辑回归和L1-正则化等关键机器学习问题中的线性收敛速率。

ABSTRACT

In 1963, Polyak proposed a simple condition that is sufficient to show a global linear convergence rate for gradient descent. This condition is a special case of the \L{}ojasiewicz inequality proposed in the same year, and it does not require strong convexity (or even convexity). In this work, we show that this much-older Polyak-\L{}ojasiewicz (PL) inequality is actually weaker than the main conditions that have been explored to show linear convergence rates without strong convexity over the last 25 years. We also use the PL inequality to give new analyses of randomized and greedy coordinate descent methods, sign-based gradient descent methods, and stochastic gradient methods in the classic setting (with decreasing or constant step-sizes) as well as the variance-reduced setting. We further propose a generalization that applies to proximal-gradient methods for non-smooth optimization, leading to simple proofs of linear convergence of these methods. Along the way, we give simple convergence results for a wide variety of problems in machine learning: least squares, logistic regression, boosting, resilient backpropagation, L1-regularization, support vector machines, stochastic dual coordinate ascent, and stochastic variance-reduced gradient methods.

研究动机与目标

  • 将Polyak-Lojasiewicz(PL)不等式确立为线性收敛的统一且弱于以往松弛条件的框架。
  • 利用PL条件,为梯度下降、坐标下降、随机梯度和近端梯度法提供简单且统一的收敛性证明。
  • 在PL条件下,证明标准机器学习问题(如最小二乘、逻辑回归和L1-正则化)的线性收敛性。
  • 通过近端梯度法将PL不等式推广至非光滑问题,并将其与Kurdyka-Lojasiewicz(KL)条件联系起来。

提出的方法

  • 提出PL不等式:||∇f(x)||² ≥ 2μ(f(x)−f*),其中μ>0,该条件可确保以步长1/L的梯度下降实现全局线性收敛。
  • 利用PL不等式推导出线性收敛速率:f(xk)−f* ≤ (1−μ/L)^k (f(x0)−f*),适用于步长为1/L的梯度下降。
  • 将PL条件应用于随机与贪婪坐标下降,证明在相同条件下实现线性收敛。
  • 通过引入近端-PL条件,将PL不等式推广至非光滑问题,该条件在非光滑情况下与Kurdyka-Lojasiewicz(KL)条件等价。
  • 利用次梯度与近端映射技术,证明复合目标函数F(x)=f(x)+g(x)(其中g为凸函数且可能非光滑)的收敛性。
  • 基于PL框架,推导出随机梯度方法(采用递减或恒定步长)及方差缩减方法的收敛速率。

实验结果

研究问题

  • RQ1Polyak-Lojasiewicz(PL)不等式是否严格弱于近期提出的其他线性收敛条件(如受限割线不等式或二次增长)?
  • RQ2PL不等式能否用于在广泛机器学习问题中,为梯度下降、坐标下降和随机梯度方法提供简单且统一的收敛性证明?
  • RQ3PL条件是否可通过近端梯度法推广至非光滑优化?其与Kurdyka-Lojasiewicz(KL)条件的关系如何?
  • RQ4PL条件能否用于建立逻辑回归和L1-正则化最小二乘等非强凸问题的线性收敛性?
  • RQ5PL条件与非凸及非光滑优化中现有的误差界或全局收敛框架之间存在何种关系?

主要发现

  • PL不等式弱于所有主要替代条件(如RSI、QG、WSC、ESC、EB),使其成为线性收敛的更通用且统一的框架。
  • 在PL条件下,以步长1/L的梯度下降可实现线性收敛:f(xk)−f* ≤ (1−μ/L)^k (f(x0)−f*)。
  • PL条件可推出逻辑回归与最小二乘问题的线性收敛,尽管这些问题是非强凸的。
  • 在广义近端-PL条件下,近端梯度法可实现线性收敛,该条件在非光滑情况下等价于KL条件。
  • 本文为随机与贪婪坐标下降(包括提升变体)提供了新的收敛速率。
  • 该框架为方差缩减随机梯度方法与基于符号的梯度下降提供了简洁证明,且在PL条件下实现线性收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。