Skip to main content
QUICK REVIEW

[論文レビュー] Painless Stochastic Gradient: Interpolation, Line-Search, and Convergence Rates

Sharan Vaswani, Aaron Mishkin|arXiv (Cornell University)|May 23, 2019
Stochastic Gradient Optimization Techniques被引用数 84
ひとこと要約

本論文は、補間下で自動的にステップサイズを設定する Armijo および Lipschitz 線探索を用いた SGD および SEG の変種を導入し、凸、強凸、非凸、および鞍点問題に対して高速な収束速度を証明するとともに、経験的にも競争力の性能を示す。

ABSTRACT

Recent works have shown that stochastic gradient descent (SGD) achieves the fast convergence rates of full-batch gradient descent for over-parameterized models satisfying certain interpolation conditions. However, the step-size used in these works depends on unknown quantities and SGD's practical performance heavily relies on the choice of this step-size. We propose to use line-search techniques to automatically set the step-size when training models that can interpolate the data. In the interpolation setting, we prove that SGD with a stochastic variant of the classic Armijo line-search attains the deterministic convergence rates for both convex and strongly-convex functions. Under additional assumptions, SGD with Armijo line-search is shown to achieve fast convergence for non-convex functions. Furthermore, we show that stochastic extra-gradient with a Lipschitz line-search attains linear convergence for an important class of non-convex functions and saddle-point problems satisfying interpolation. To improve the proposed methods' practical performance, we give heuristics to use larger step-sizes and acceleration. We compare the proposed algorithms against numerous optimization methods on standard classification tasks using both kernel methods and deep networks. The proposed methods result in competitive performance across all models and datasets, while being robust to the precise choices of hyper-parameters. For multi-class classification using deep networks, SGD with Armijo line-search results in both faster convergence and better generalization.

研究の動機と目的

  • 過剰パラメータ化された補間モデルにおける SGD の自動的なステップサイズ選択を動機づける。
  • 補間下での凸および凸で強い convex 設定における Armijo 線探索を用いた SGD の収束速度を証明する。
  • 線探索変種を用いた非凸最適化および鞍点問題への拡張。
  • 補間下で RSI を満たす確率的追加勾配法(stochastic extra-gradient)に Lipschitz 線探索を提案し、線形収束を確立する。
  • カーネル法および深層ネットワーク全体での実用的なヒューリスティックと実証的検証を提供する。

提案手法

  • f_{ik}(w_k) および勾配ノルムに基づくミニバッチ線条件を用いて、Armijo 線探索を確率的 SGD に適用する。
  • 収束速度を証明する:補間下で、強凸および凸の場合において、全データバッチ GD に一致する線形収束。
  • 成長条件とステップサイズの上限下で、Armijo 線探索を用いた非凸 SGD が O(1/T) 収束率を達成することを示す。
  • 非凸 RSI 問題に対処するためSEGの Lipschitz 線探索を導入し、補間下で線形収束を証明する。
  • ライン探索の性能とロバスト性を向上させる実用的なリセットおよび加速ヒューリスティックを提供する。

実験結果

リサーチクエスチョン

  • RQ1Armijo ベースの線探索は、補間下で convex および strongly convex 設定において SGD が全データバッチの収束速度に匹敵するようにできるか?
  • RQ2非凸/補間条件下での線探索を用いた SGD に対する収束保証は何か?
  • RQ3Lipschitz 線探索を用いた SEG は補間下で RSI を満たす非凸問題および特定の鞍点問題に対して線形収束を達成できるか?
  • RQ4実用的なヒューリスティック(ステップサイズのリセット、加速)は、補間を有効にする領域での性能とロバスト性にどう影響するか?

主な発見

  • 補間下で convex および strongly convex 関数に対して、確定的収束率を達成する Armijo 線探索を用いた SGD は、全データバッチ GD に匹敵する。
  • 補間と成長条件を満たす非凸関数に対して、Armijo 線探索を用いた SGD は O(1/T) 収束率を達成する。
  • Lipschitz 線探索を用いた SEG は、補間下で RSI を満たす非凸問題および特定の鞍点問題に対して線形収束を達成する。
  • これらの手法はカーネル法および深層ネットワークにおいて競争力のある性能を示し、深層学習タスクでより速い収束とより良い一般化を実現する。
  • 実用的なヒューリスティック(より大きなステップサイズ、リセット戦略、加速)は、正確な Lipschitz 定数を必要とせず、実行時間とロバスト性を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。