QUICK REVIEW

[論文レビュー] On exponential convergence of SGD in non-convex over-parametrized learning

Raef Bassily, Mikhail Belkin|arXiv (Cornell University)|Nov 6, 2018

Stochastic Gradient Optimization Techniques参考文献 10被引用数 58

ひとこと要約

本論文は、補間領域において Polyak-Lojasiewicz (PL) 条件を満たす損失関数に対して、固定ステップサイズを用いたミニバッチ SGD の指数収束を示し、従来の凸結論を非凸 PL 損失へ拡張する。

ABSTRACT

Large over-parametrized models learned via stochastic gradient descent (SGD) methods have become a key element in modern machine learning. Although SGD methods are very effective in practice, most theoretical analyses of SGD suggest slower convergence than what is empirically observed. In our recent work [8] we analyzed how interpolation, common in modern over-parametrized learning, results in exponential convergence of SGD with constant step size for convex loss functions. In this note, we extend those results to a much broader non-convex function class satisfying the Polyak-Lojasiewicz (PL) condition. A number of important non-convex problems in machine learning, including some classes of neural networks, have been recently shown to satisfy the PL condition. We argue that the PL condition provides a relevant and attractive setting for many machine learning problems, particularly in the over-parametrized regime.

研究の動機と目的

過剰パラメータ化モデルにおける補間下での SGD 収束性の研究動機を提起する。
Polyak-Lojasiewicz (PL) 条件を広範な非凸フレームワークとして紹介する。
PL 損失に対して固定ステップサイズのミニバッチ SGD の指数収束を示す。
PL 関数の変換不変性性質とそれが SGD に与える影響を強調する。
収束がより速い特定の凸 PL 損失クラスに関する特別な結果を提供する。

提案手法

平滑な損失を用いるERMのための alpha-PL 関数と補間仮定を定義する。
定数ステップサイズ eta* を用いたミニバッチ SGD を解析し収束境界を導出する。
E[L(w_t)] が幾何的に短縮されることを示す、率は (1 - alpha eta*(m)/2)。
eta*(m) = alpha m / (lambda (beta + lambda (m-1))).
ヤコビ行列の境界の下で PL と平滑性を保つ合成 f(Phi(.)) に結果を拡張する。
固定行列 A を用いた形 g(Ax) の特別なクラスの凸 PL 損失に対処し、収束を A の特異値と関連づけて述べる。

実験結果

リサーチクエスチョン

RQ1固定ステップサイズの SGD は補間領域における非凸 PL 損失に対して指数収束するのか。
RQ2PL の下でミニバッチサイズ m は最適なステップサイズと収束速度にどう影響するか。
RQ3座標変換や特徴マップの下で PL 収束を保持できるか。
RQ4凸 PL 損失のサブクラスにおいて、一般的な PL 上限を超える収束速度を実現できるか。
RQ5どのような構造条件（例：特異値を持つ線形写像）が SGD に対してより強い保証を生むか。

主な発見

アルファ PL と補間の下で、定数ステップ eta*(m) を用いたミニバッチ SGD は期待値で指数収束を達成する。
収束境界は E[L(w_t)] ≤ (1 - alpha eta*(m)/2)^t L(w_0)。
最適ステップサイズは eta*(m) = alpha m / (lambda (beta + lambda (m-1))).
PL 関数は Jacobian が境界付きの広範な変換 Phi の下で閉じ、指数関数的 SGD 収束を保つ。
特別なクラス f(w) = g(Aw) で g が凸かつ強凸の場合、SGD は A の特異値に関連する sigma_min^2 および sigma_max^2 に依存するレートで指数収束を達成する。
変換不変性性質は、特徴マップや座標変換に対して mild 条件の下で PL 収束が頑健であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。