Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic Mirror Descent on Overparameterized Nonlinear Models: Convergence, Implicit Regularization, and Generalization

Navid Azizan, Sahin Lale|arXiv (Cornell University)|Jun 10, 2019
Domain Adaptation and Few-Shot Learning参考文献 38被引用数 29
ひとこと要約

本稿は過パラメータ化された非線形モデルにおける確率的ミラー降下(SMD)を研究し、ミラーのポテンシャルに対応するブレグマンダイバージェンスにおいて、初期化に最も近いグローバルミニマにSMDが収束することを示している。驚くべきことに、実験では $q=10$ の $ψ(q)=\|\cdot\|_q^q$ が $q=2$(SGD)や $q=1$ よりも優れた一般化性能を示す一方で、スパarsityを誘導するよりも少ないにもかかわらず、深層学習の一般化におけるイニシャルレギュライゼーションの重要性が浮き彫りになる。

ABSTRACT

Most modern learning problems are highly overparameterized, meaning that there are many more parameters than the number of training data points, and as a result, the training loss may have infinitely many global minima (parameter vectors that perfectly interpolate the training data). Therefore, it is important to understand which interpolating solutions we converge to, how they depend on the initialization point and the learning algorithm, and whether they lead to different generalization performances. In this paper, we study these questions for the family of stochastic mirror descent (SMD) algorithms, of which the popular stochastic gradient descent (SGD) is a special case. Our contributions are both theoretical and experimental. On the theory side, we show that in the overparameterized nonlinear setting, if the initialization is close enough to the manifold of global minima (something that comes for free in the highly overparameterized case), SMD with sufficiently small step size converges to a global minimum that is approximately the closest one in Bregman divergence. On the experimental side, our extensive experiments on standard datasets and models, using various initializations, various mirror descents, and various Bregman divergences, consistently confirms that this phenomenon happens in deep learning. Our experiments further indicate that there is a clear difference in the generalization performance of the solutions obtained by different SMD algorithms. Experimenting on a standard image dataset and network architecture with SMD with different kinds of implicit regularization, $\ell_1$ to encourage sparsity, $\ell_2$ yielding SGD, and $\ell_{10}$ to discourage large components in the parameter vector, consistently and definitively shows that $\ell_{10}$-SMD has better generalization performance than SGD, which in turn has better generalization performance than $\ell_1$-SMD.

研究の動機と目的

  • 過パラメータ化された非線形モデルにおける確率的ミラー降下(SMD)が収束するグローバルミニマが何かを理解すること。
  • ミラー・ポテンシャル(ブレグマンダイバージェンスを定義する)の選択が、イニシャルレギュライゼーションおよび一般化性能に与える影響を調査すること。
  • 同じ訓練損失を達成しても、異なるSMDアルゴリズムが異なる一般化性能を示すかどうかを特定すること。
  • 標準データセットおよびアーキテクチャを用いた体系的な実験を通じて、理論的に予測された収束行動を検証すること。

提案手法

  • 理論的分析により、小さなステップサイズを用いたSMDが、ミラー・ポテンシャルによって定義されるブレグマンダイバージェンスにおいて、初期化に近いグローバルミニマに収束することを確立した。
  • この分析は、初期化が次元の高さのおかげで自然にグローバルミニマの多様体に近い過パラメータ化された非線形モデルに適用可能である。
  • 実験では、MNISTおよびCIFAR-10を用い、ResNet-18を用いて、$\ell_1$、$\ell_2$、$\ell_3$、$\ell_{10}$ の異なるポテンシャルを用いたSMDを、訓練誤差がゼロになるまでさまざまな初期化から訓練した。
  • 理論的予測の正当性を検証するため、最終解と初期化点との間のペアワイズブレグマンダイバージェンス距離を測定した。
  • 異なるミラーにおける重みの分布ヒストグラムを分析し、パラメータの大きさの変化とスパarsityを評価した。
  • CIFAR-10のテスト精度を用いて、同じ訓練損失を達成するさまざまなSMDバリアントの一般化性能を評価した。

実験結果

リサーチクエスチョン

  • RQ1確率的ミラー降下(SMD)は、ミラー・ポテンシャルによって定義されるブレグマンダイバージェンスにおいて、初期化に最も近いグローバルミニマに収束するか?
  • RQ2ミラー・ポテンシャルの選択が、深層ニューラルネットワークのイニシャルレギュライゼーションおよび一般化性能に与える影響は何か?
  • RQ3実際の状況において、異なる初期化およびミラーの種類において、ブレグマンダイバージェンスにおいて最も近いミニマへの収束が一貫しているか?
  • RQ4$\ell_{10}$-SMDが $\ell_2$-SMD(SGD)や $\ell_1$-SMD よりも一般化性能に優れているのはなぜか?(スパarsityが小さいにもかかわらず)
  • RQ5SMDのイニシャルレギュライゼーション効果を体系的に活用することで、深層学習のテスト性能を向上させることができるか?

主な発見

  • すべての実験において、任意のSMDアルゴリズムが得た最終解は、ミラー・ポテンシャルによって定義されるブレグマンダイバージェンスにおいて、対応する初期化に最も近かった。これは理論的予測の妥当性を確認した。
  • $\ell_{10}$-SMDアルゴリズムはCIFAR-10で最も優れた一般化性能を示し、$\ell_2$-SMD(SGD)および $\ell_1$-SMDを上回った。
  • $\ell_1$-SMDアルゴリズムは、重みの大きさのヒストグラムから確認できるように、顕著なスパarsityを誘導した。
  • $\ell_2$-SMD(SGD)は初期の重み分布を最もよく保持しており、ヒストограмムのシフトが最小であった。
  • $\ell_{10}$-SMDは重み分布を著しく高い大きさにシフトさせ、ほぼすべての重みが非ゼロであり、0.005から0.04の範囲に分布していた。
  • 同じ訓練損失と完全な補間を達成しても、SMDバリアント間でテスト精度に顕著な差が見られ、$\ell_{10}$-SMDはCIFAR-10で一貫して最高の精度を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。