QUICK REVIEW

[論文レビュー] Stochastic Gradient Descent on Separable Data: Exact Convergence with a Fixed Learning Rate

Mor Shpigel Nacson, Nathan Srebro|arXiv (Cornell University)|Jun 5, 2018

Stochastic Gradient Optimization Techniques被引用数 35

ひとこと要約

この論文は、滑らかで単調な損失関数（例：ロジスティック損失）を用いた同次線形分類器が線形分離可能データに対して固定学習率の確率的勾配降下法（SGD）がゼロ損失に収束することを証明している。重みベクトルの方向はO(1/log t)の速度でL2マックスマージン解に収束し、損失はO(1/t)の速度で減少する。これは学習率の減少やイテレート平均化がなくても、復元抽出および非復元抽出の両方の設定で成立する。

ABSTRACT

Stochastic Gradient Descent (SGD) is a central tool in machine learning. We prove that SGD converges to zero loss, even with a fixed (non-vanishing) learning rate - in the special case of homogeneous linear classifiers with smooth monotone loss functions, optimized on linearly separable data. Previous works assumed either a vanishing learning rate, iterate averaging, or loss assumptions that do not hold for monotone loss functions used for classification, such as the logistic loss. We prove our result on a fixed dataset, both for sampling with or without replacement. Furthermore, for logistic loss (and similar exponentially-tailed losses), we prove that with SGD the weight vector converges in direction to the $L_2$ max margin vector as $O(1/\log(t))$ for almost all separable datasets, and the loss converges as $O(1/t)$ - similarly to gradient descent. Lastly, we examine the case of a fixed learning rate proportional to the minibatch size. We prove that in this case, the asymptotic convergence rate of SGD (with replacement) does not depend on the minibatch size in terms of epochs, if the support vectors span the data. These results may suggest an explanation to similar behaviors observed in deep networks, when trained with SGD.

研究の動機と目的

深層ネットワークにおける固定学習率のSGDの経験的収束と、学習率をゼロに漸近させるかイテレート平均化を要する理論的結果との間の乖離を解消すること。
同次線形分類器が線形分離可能データに対して固定学習率のSGDがゼロ損失に正確に収束することを確立すること。
固定学習率下での重みベクトルの方向がL2マックスマージン解に収束する速度と、損失の減少速度を特定すること。
学習率がミニバッチサイズに比例する場合の、ミニバッチサイズが漸近的収束に与える影響を分析すること。

提案手法

線形分離可能データ上で滑らかで単調な損失関数（例：ロジスティック損失）を用いた同次線形分類器におけるSGDのダイナミクスを分析する。
任意の固定学習率下で重みベクトルのノルムが無限大に発散することを証明し、これにより損失の最小化が可能になることを示す。
集中不等式と調和級数の近似を用いて、SGDの反復が期待値からどれほど逸脱するかを評価する。
Hoeffdingの不等式を適用し、勾配更新における確率的フラクチュエーションが確率1でo(t^{-0.5+ε})の速度で減少することを示す。
重み更新を決定的および確率的成分に分解し、後者が漸近的に消えることを示して収束速度を導出する。
復元抽出および非復元抽出の両方の設定を検討し、両方の設定で収束が成立することを証明する。

実験結果

リサーチクエスチョン

RQ1固定学習率のSGDは、学習率をゼロに漸近させる必要があるという理論的仮定があるにもかかわらず、線形分離可能データ上でゼロ損失に収束するのか？
RQ2固定学習率のSGD下で、重みベクトルの方向がL2マックスマージン解に収束する速度はどの程度か？
RQ3ロジスティック損失のような単調な損失関数に対して、固定学習率のSGD下で損失は時間とともにどのように減少するか？
RQ4学習率がミニバッチサイズに比例する場合、ミニバッチサイズがSGDの漸近的収束速度に影響を与えるか？

主な発見

固定学習率のSGDは、イテレート平均化や学習率の減少がなくても、滑らかで単調な損失関数を用いた線形分離可能データに対してゼロ損失に収束する。
ロジスティック損失や類似の指数的尾部を持つ損失関数では、重みベクトルの方向はO(1/log t)の速度でL2マックスマージン解に収束する。
訓練損失はO(1/t)の速度で減少し、同じ問題に対して勾配降下法の収束速度と一致する。
固定学習率がミニバッチサイズに比例する場合、復元抽出のSGDの漸近的収束速度は、データをカバーするサポートベクターが存在する限り、ミニバッチサイズに依存しない（エポック単位で）。
収束結果は、復元抽出および非復元抽出の両方の設定で、同じ固定学習率の下で成立する。
理論的分析により、重み更新における確率的フラクチュエーションが漸近的に消えることが確認され、最適な方向への収束が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。