QUICK REVIEW

[論文レビュー] Linear Convergence of Gradient and Proximal-Gradient Methods Under the Polyak-\L{}ojasiewicz Condition

Hamed Karimi, Julie Nutini|arXiv (Cornell University)|Aug 16, 2016

Stochastic Gradient Optimization Techniques参考文献 53被引用数 75

ひとこと要約

この論文は、強い凸性がなくても、滑らかでない最適化における勾配法およびプロキシマル・グリデント法の線形収束を統一的で単純な枠組みで示すために、ポリアック＝ロジャスエヴィチ（PL）不等式が有効であることを確立している。PL条件は、制限セカント不等式や二次的成長といった先行条件よりも弱いことを示し、最小二乗法、ロジスティック回帰、L1正則化問題といった主要な機械学習問題において、勾配降下法、座標降下法、確率的勾配法、およびプロキシマル法の線形収束レートを導出するのに用いられる。

ABSTRACT

In 1963, Polyak proposed a simple condition that is sufficient to show a global linear convergence rate for gradient descent. This condition is a special case of the \L{}ojasiewicz inequality proposed in the same year, and it does not require strong convexity (or even convexity). In this work, we show that this much-older Polyak-\L{}ojasiewicz (PL) inequality is actually weaker than the main conditions that have been explored to show linear convergence rates without strong convexity over the last 25 years. We also use the PL inequality to give new analyses of randomized and greedy coordinate descent methods, sign-based gradient descent methods, and stochastic gradient methods in the classic setting (with decreasing or constant step-sizes) as well as the variance-reduced setting. We further propose a generalization that applies to proximal-gradient methods for non-smooth optimization, leading to simple proofs of linear convergence of these methods. Along the way, we give simple convergence results for a wide variety of problems in machine learning: least squares, logistic regression, boosting, resilient backpropagation, L1-regularization, support vector machines, stochastic dual coordinate ascent, and stochastic variance-reduced gradient methods.

研究の動機と目的

PL不等式を、線形収束のためのより弱い条件として、先行の緩和条件よりも統一的かつ弱いものとして確立すること。
PL条件を用いて、勾配降下法、座標降下法、確率的勾配法、およびプロキシマル・グリデント法の単純で統一的な収束証明を提供すること。
最小二乗法、ロジスティック回帰、L1正則化といった標準的な機械学習問題がPL条件のもとで線形収束を示すことを実証すること。
非滑らか問題への一般化として、プロキシマル・グリデント法を介してPL不等式を非滑らか問題に拡張し、カーディカ＝ロジャスエヴィチ（KL）条件と関連付けること。

提案手法

PL不等式を提唱：あるμ>0に対して||∇f(x)||² ≥ 2μ(f(x)−f*)が成り立ち、これによりステップサイズ1/Lの勾配降下法がグローバルに線形収束することを保証する。
PL不等式を用いて線形収束レートを導出：ステップサイズ1/Lの勾配降下法において、f(xk)−f* ≤ (1−μ/L)^k (f(x0)−f*)が成り立つ。
PL条件を用いて確率的およびグリーディ座標降下法を分析し、同じ条件下で線形収束を示す。
非滑らか問題へのPL不等式の一般化として、プロキシマル-PL条件を導入し、非滑らかケースにおけるカーディカ＝ロジャスエヴィチ（KL）条件と関連付ける。
部分勾配およびプロキシマル写像技術を用いて、gが凸でかつ非滑らかである可能性のある合成目的関数F(x)=f(x)+g(x)の収束を証明する。
PLフレームワークを用いて、減少ステップサイズまたは定常ステップサイズを用いた確率的勾配法、および分散低減手法の収束レートを導出する。

実験結果

リサーチクエスチョン

RQ1ポリアック＝ロジャスエヴィチ（PL）不等式は、最近提案された線形収束のための他の条件（例：制限セカント不等式、二次的成長）よりも厳密に弱いか？
RQ2PL不等式を用いて、幅広い機械学習問題において、勾配降下法、座標降下法、確率的勾配法の単純で統一的な収束証明を導出可能か？
RQ3PL条件は、プロキシマル・グリデント法を介して非滑らか最適化に拡張可能か？また、カーディカ＝ロジャスエヴィチ（KL）条件とはどのように関連するか？
RQ4ロジスティック回帰やL1正則化付き最小二乗問題のように強い凸性を満たさない問題に対しても、PL条件を用いて線形収束を確立できるか？
RQ5PL条件は、非凸および非滑らか最適化における既存の誤差バインディングやグローバル収束フレームワークと、どのように関係するか？

主な発見

PL不等式は、すべての主要な代替条件（例：RSI、QG、WSC、ESC、EB）よりも弱く、線形収束のより一般で統一的な枠組みを提供する。
ステップサイズ1/Lの勾配降下法は、PL条件のもとで線形収束を達成する：f(xk)−f* ≤ (1−μ/L)^k (f(x0)−f*)。
PL条件は、ロジスティック回帰や最小二乗法に対しても線形収束を示すことを示し、これらが強い凸性を持たない場合でも成立する。
一般化されたプロキシマル-PL条件のもとで、プロキシマル・グリデント法は線形収束を達成する。これは、非滑らかケースにおいてKL条件と等価である。
本論文は、確率的およびグリーディ座標降下法のための新たな収束レートを提供し、ブースティング変種に対しても適用可能である。
本フレームワークにより、分散低減確率的勾配法およびサインベース勾配降下法の単純な証明が得られ、PL条件のもとで線形収束が成立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。