Skip to main content
QUICK REVIEW

[論文レビュー] On Empirical Comparisons of Optimizers for Deep Learning

Dami Choi, Christopher J. Shallue|arXiv (Cornell University)|Oct 11, 2019
Advanced Neural Network Applications参考文献 57被引用数 185
ひとこと要約

この論文は、ハイパーパラメータ調整プロトコルがオプティマイザのランキングを左右し、オプティマイザ間の包含関係(例:適応的手法対モーメンタム)が比較性能を信頼性高く予測することを示している。さらに、十分に調整された適応的手法はモーメンタムまたは SGD を下回ることは決してないと主張している。

ABSTRACT

Selecting an optimizer is a central step in the contemporary deep learning pipeline. In this paper, we demonstrate the sensitivity of optimizer comparisons to the hyperparameter tuning protocol. Our findings suggest that the hyperparameter search space may be the single most important factor explaining the rankings obtained by recent empirical comparisons in the literature. In fact, we show that these results can be contradicted when hyperparameter search spaces are changed. As tuning effort grows without bound, more general optimizers should never underperform the ones they can approximate (i.e., Adam should never perform worse than momentum), but recent attempts to compare optimizers either assume these inclusion relationships are not practically relevant or restrict the hyperparameters in ways that break the inclusions. In our experiments, we find that inclusion relationships between optimizers matter in practice and always predict optimizer comparisons. In particular, we find that the popular adaptive gradient methods never underperform momentum or gradient descent. We also report practical tips around tuning often ignored hyperparameters of adaptive gradient methods and raise concerns about fairly benchmarking optimizers for neural network training.

研究の動機と目的

  • 深層学習におけるハイパーパラメータ調整プロトコルがオプティマイザのランキングに与える影響を評価する。
  • 現実的な調整予算の下で、オプティマイザ間の包含関係が成り立つかを検討する。
  • オプティマイザの公正なベンチマークに影響を与える実践的なハイパーパラメータ調整上の考慮事項を特定する。

提案手法

  • さまざまなハイパーパラメータ探索空間の下でオプティマイザを実験的に比較する。
  • オプティマイザ間の包含関係(適応法、モーメンタム、SGD)を評価する。
  • 調整努力がオプティマイザ間の相対性能に与える影響を分析する。

実験結果

リサーチクエスチョン

  • RQ1ハイパーパラメータ探索空間は深層学習におけるオプティマイザの相対性能を決定しますか?
  • RQ2実用的な調整予算の下で、オプティマイザ間の包含関係は成り立ちますか?
  • RQ3十分に調整された適応法はモーメンタムや SGD を下回ることがありますか、それとも常にそれらに近似しますか?
  • RQ4公正なベンチマークのために必要な実践的なハイパーパラメータ調整ガイドラインは何ですか?

主な発見

  • ハイパーパラメータ調整プロトコルはオプティマイザのランキングを決定的に形成する。
  • ハイパーパラメータ探索空間を変更すると、比較研究の結論を反転させることがある。
  • 調整が許される場合、適応的勾配法はモーメンタムや SGD を下回らない。
  • オプティマイザ間の包含関係は実務的な比較を信頼性高く予測する。
  • 本論文は適応勾配法の調整に関する実践的なヒントを提供し、ベンチマークの実務に警鐘を鳴らす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。