QUICK REVIEW

[論文レビュー] Minimum norm solutions do not always generalize well for over-parameterized problems

Vatsal Shah, Anastasios Kyrillidis|arXiv (Cornell University)|Nov 16, 2018

Stochastic Gradient Optimization Techniques被引用数 15

ひとこと要約

この論文は、過パラメータ化モデルにおける最小ノルム解が一般化性能が最良であるという仮定に挑戦し、実験的分析を通じて、適応的最適化手法がSGDを上回ることを示している。これは、重みノルムがより大きいモデルであっても成り立つ。主な貢献は、実用的なディープラーニングの文脈において、一般化性能が重みノルムの最小化によって厳密に規定されないことを示したことにある。

ABSTRACT

This work is substituted by the paper in arXiv:2011.14066. Stochastic gradient descent is the de facto algorithm for training deep neural networks (DNNs). Despite its popularity, it still requires fine tuning in order to achieve its best performance. This has led to the development of adaptive methods, that claim automatic hyper-parameter optimization. Recently, researchers have studied both algorithmic classes via toy examples: e.g., for over-parameterized linear regression, Wilson et. al. (2017) shows that, while SGD always converges to the minimum-norm solution, adaptive methods show no such inclination, leading to worse generalization capabilities. Our aim is to study this conjecture further. We empirically show that the minimum weight norm is not necessarily the proper gauge of good generalization in simplified scenaria, and different models found by adaptive methods could outperform plain gradient methods. In practical DNN settings, we observe that adaptive methods can outperform SGD, with larger weight norm output models, but without necessarily reducing the amount of tuning required.

研究の動機と目的

過パラメータ化設定において、最小ノルム解が一貫してより良い一般化性能を示すかどうかを調査すること。
簡略化されたおよび実用的なディープラーニングのシナリオにおいて、適応的最適化手法とSGDの一般化性能を評価すること。
過パラメータ化モデルにおいて、重みノルムが一般化性能の信頼できる代理指標であるかどうかを特定すること。
実際の状況において、適応的手法がハイパーパrameterチューニングの必要性を本当に低減するかどうかを評価すること。

提案手法

過パラメータ化線形回帰およびシンプルなニューラルネットワーク設定において、SGDおよび適応的最適化手法（例：Adam）の実験的評価。
最小ノルム解と非最小ノルム解を含む、さまざまな重みノルムを持つモデル間の一般化性能の比較。
テスト精度と重みノルムのダイナミクスを観察するために、制御された環境下で深層ニューラルネットワークをSGDおよび適応的手法で訓練。
異なる最適化軌道において、重みノルムの大きさと一般化誤差の関係を分析。
簡略化された設定と実用的設定の両方で、トロイ・エクサムプルと実際のDNNアーキテクチャを用いて、結果の妥当性を検証。

実験結果

リサーチクエスチョン

RQ1過パラメータ化問題において、最小ノルム解は常により良い一般化性能を示すのか？
RQ2適応的最適化手法は、重みノルムが著しく大きいにもかかわらず、一般化性能においてSGDを上回ることができるのか？
RQ3ディープラーニングモデルにおいて、重みノルムは一般化性能の信頼できる指標であるのか？
RQ4実際の状況において、適応的手法はどれほどハイパーパrameterチューニングの必要性を低減するのか？

主な発見

過パラメータ化設定において、最小ノルム解が常に非最小ノルム解よりも良い一般化性能を示すわけではない。
Adamのような適応的手法は、重みノルムが著しく大きいモデルであっても、SGDを上回る一般化性能を達成できる。
実用的なディープニューラルネットワークの訓練において、適応的手法はSGDを上回るが、必ずしもハイパーパrameterチューニングの量を減らすとは限らない。
実験的結果は、過パラメータ化モデルにおいて最小重みノルムが最適一般化を意味するとする理論的仮定に疑問を呈する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。