QUICK REVIEW

[論文レビュー] Stability and Generalization of Learning Algorithms that Converge to Global Optima

Zachary Charles, Dimitris Papailiopoulos|arXiv (Cornell University)|Oct 23, 2017

Stochastic Gradient Optimization Techniques被引用数 62

ひとこと要約

本論文は、Polyak-Łojasiewicz条件と二次成長条件の下でグローバルミニマムへ収束する学習アルゴリズムに対するブラックボックス安定性/一般化境界を導出し、それを非凸設定での SGD、GD、RCD、SVRG に適用する。

ABSTRACT

We establish novel generalization bounds for learning algorithms that converge to global minima. We do so by deriving black-box stability results that only depend on the convergence of a learning algorithm and the geometry around the minimizers of the loss function. The results are shown for nonconvex loss functions satisfying the Polyak-{\\L}ojasiewicz (PL) and the quadratic growth (QG) conditions. We further show that these conditions arise for some neural networks with linear activations. We use our black-box results to establish the stability of optimization algorithms such as stochastic gradient descent (SGD), gradient descent (GD), randomized coordinate descent (RCD), and the stochastic variance reduced gradient method (SVRG), in both the PL and the strongly convex setting. Our results match or improve state-of-the-art generalization bounds and can easily be extended to similar optimization algorithms. Finally, we show that although our results imply comparable stability for SGD and GD in the PL setting, there exist simple neural networks with multiple local minima where SGD is stable but GD is not.

研究の動機と目的

PL/QG幾何学の下でグローバルミニマムへの収束が安定性と一般化保証を生むことを動機づけ、定量化する。
アルゴリズムの収束とミニマイザ周辺の局所幾何に依存するブラックボックス安定性境界を開発する。
PLおよび強凸領域にわたって、一般的な最適化手法（SGD、GD、RCD、SVRG）への適用性を示す。
線形活性化を持つニューラルネットワークおよび深層線形ネットワークにおいて PL/QG 条件が生じることを実証する。

提案手法

PLおよびQG条件を定義し、点ワイズ安定性および一様安定性の枠組みを通じて安定性と一般化とを関連付ける。
アルゴリズムの収束（epsilon_A型項）を幾何定数（mu, L, n）から分離する安定性境界を導出する。
PLまたは強凸性の下で、既知の収束速度を用いて一階法（SDG, GD, RCD, SVRG）へ境界を適用する。
PLの下で、安定性境界が既存の結果と同等かそれより良く、凸性や強凸性を仮定せずに適用できることを示す。
特定の非凸設定で、SGDが安定している一方でGDが安定でない例を提供する。

実験結果

リサーチクエスチョン

RQ1凸性を前提とせず、PLまたはQGを満たす非凸損失に対して、安定性/グローバル一般化境界を得られるか。
RQ2一般的なアルゴリズム（SGD、GD、RCD、SVRG）の収束特性が、PL/QGの下で安定性保証へどのように結びつくか。
RQ3PLおよびQGクラスは、線形活性化を持つニューラルネットワークなどの実用的な損失谷地を捉えているか。
RQ4非凸設定において、SGDとGDはいつ安定性が異なり、それが一般化にどのような意味を持つか。

主な発見

PL/QG条件の下で、アルゴリズムの収束とグローバルミニマイザー周辺の局所幾何に依存する安定性境界を導出した。
PLの下で、Aがグローバル最適化へ収束する経験的損失は、明示的な 2L^2/(mu(n-1)) 項（または関連表現）を伴う点ごとの仮説安定性をもたらす。
QGの下でも、muとサンプルサイズnに依存する同様の安定性境界が得られ、境界はLipschitz定数Lおよび損失界cに比例してスケールする。
結果は強凸の場合に次数的な安定性境界を回復し、広いクラスのアルゴリズム（SGD、GD、RCD、SVRG）へ拡張する。
本論文は、特定の非凸のニューラルネットワーク風景において、SGDが安定しているがGDは安定でない例を提供する。
PLは線形活性化を持つネットワーク、深層線形ネットワークを含むで生じ、理論の実践的関連性を意味する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。