Skip to main content
QUICK REVIEW

[論文レビュー] Fast and Faster Convergence of SGD for Over-Parameterized Models and an Accelerated Perceptron

Sharan Vaswani, Francis Bach|arXiv (Cornell University)|Oct 16, 2018
Stochastic Gradient Optimization Techniques参考文献 42被引用数 25
ひとこと要約

本稿は、過パラメータ化モデルにおける強い成長条件(SGC)の下で、Nesterov加速を施した定数ステップサイズの確率的勾配降下法(SGD)が、凸関数および強凸関数の両方において、決定論的で加速された収束レートを達成することを確立している。さらに、SGDは定数ステップサイズで、より弱い補間に基づく成長条件のもとで決定論的レートに一致することを示し、二乗ヒンジ損失を用いた確率的パーセプトロンに対してO(1/k²)の誤りバウンドを証明している。

ABSTRACT

Modern machine learning focuses on highly expressive models that are able to fit or interpolate the data completely, resulting in zero training loss. For such models, we show that the stochastic gradients of common loss functions satisfy a strong growth condition. Under this condition, we prove that constant step-size stochastic gradient descent (SGD) with Nesterov acceleration matches the convergence rate of the deterministic accelerated method for both convex and strongly-convex functions. We also show that this condition implies that SGD can find a first-order stationary point as efficiently as full gradient descent in non-convex settings. Under interpolation, we further show that all smooth loss functions with a finite-sum structure satisfy a weaker growth condition. Given this weaker condition, we prove that SGD with a constant step-size attains the deterministic convergence rate in both the strongly-convex and convex settings. Under additional assumptions, the above results enable us to prove an O(1/k^2) mistake bound for k iterations of a stochastic perceptron algorithm using the squared-hinge loss. Finally, we validate our theoretical findings with experiments on synthetic and real datasets.

研究の動機と目的

  • 過パラメータ化モデルにおける加速されたSGDの実験的成功と理論的理解の間のギャップを埋めること。
  • 現代の機械学習モデルに特有の補間および成長条件のもとで、定数ステップサイズのSGDの収束レートを分析すること。
  • 強い成長条件(SGC)を用いて、凸および非凸設定の両方で加速された収束を確立すること。
  • 補間の性質を用いて、二乗ヒンジ損失を用いた確率的パーセプトロンアルゴリズムの誤りバウンドを導出すること。

提案手法

  • 過パラメータ化モデルにおける確率的勾配と全勾配の関係を特徴付ける重要な仮定として、強い成長条件(SGC)を導入する。
  • SGCのもとで、Nesterov加速を施した定数ステップサイズのSGDが、凸関数および強凸関数に対して決定論的で加速されたレートに達することを証明する。
  • 補間のもとで、すべての滑らかで有限和の損失関数がより弱い成長条件を満たすことを示し、定数ステップサイズのSGDが決定論的収束レートに一致できることを可能にする。
  • SGCのもとで、定数ステップサイズのSGDが非凸設定における一次の停留所を、全勾配降下法と同等の効率で見つけられることを確立する。
  • 補間のもとで、二乗ヒンジ損失を用いた確率的パーセプトロンのk回の反復に対してO(1/k²)の誤りバウンドを導出する。
  • ステップサイズの適応にラインサーチヒューリスティクスを用いた合成および実データセット上の実験を通じて、理論的結果の妥当性を検証する。

実験結果

リサーチクエスチョン

  • RQ1定数ステップサイズのSGDにNesterov加速を適用した場合、過パラメータ化モデルにおいて決定論的で加速された収束レートを達成できるか?
  • RQ2強い成長条件(SGC)が、凸および強凸設定の両方において、定数ステップサイズのSGDが決定論的収束レートに一致することを示唆するか?
  • RQ3より弱い補間に基づく成長条件を用いて、滑らかで有限和の損失関数の定数ステップサイズの収束レートを証明できるか?
  • RQ4SGCが、非凸最適化において、SGDが全勾配降下法と同等の効率で一次の停留所を発見できることを可能にするか?
  • RQ5補間およびSGCを用いた場合、二乗ヒンジ損失を用いた確率的パーセプトロンアルゴリズムに対して、どのような誤りバウンドを導出できるか?

主な発見

  • 強い成長条件(SGC)のもとで、Nesterov加速を施した定数ステップサイズのSGDは、凸関数および強凸関数の両方において、決定論的で加速された収束レートに達する。
  • 補間のもとで滑らかで有限和の損失関数に対しては、より弱い成長条件が成立し、定数ステップサイズのSGDが凸および強凸設定の両方で決定論的収束レートに一致できることを可能にする。
  • SGCのもとで、定数ステップサイズのSGDは、非凸最適化問題において、全勾配降下法と同等の効率で一次の停留所を発見する。
  • 本稿では、補間のもとで二乗ヒンジ損失を用いた確率的パーセプトロンのk回の反復に対してO(1/k²)の誤りバウンドを証明している。
  • 合成および実データセット上の実験により、理論的結果の妥当性が検証され、ラインサーチヒューリスティクスを用いた場合、安定的かつ高速な収束が得られた。
  • 提案されたラインサーチヒューリスティクスは、実験的収束を改善し、さまざまな設定においてAcc-SGD(LS)がAcc-SGD(T)と同等またはそれを上回ることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。