Skip to main content
QUICK REVIEW

[論文レビュー] Entropy-SGD: Biasing Gradient Descent Into Wide Valleys

Pratik Chaudhari, Anna Choromanska|arXiv (Cornell University)|Nov 6, 2016
Model Reduction and Neural Networks参考文献 60被引用数 114
ひとこと要約

Entropy-SGDは局所エントロピーに基づく目的を導入し、勾配降下を広く平坦な谷へ偏らせ、深層ネットワークの一般化と訓練速度を改善します。内側のLangevinダイナミクスを用いて局所エントロピーを推定する二重ループアプローチを採用し、外側の重み更新を行います。

ABSTRACT

This paper proposes a new optimization algorithm called Entropy-SGD for training deep neural networks that is motivated by the local geometry of the energy landscape. Local extrema with low generalization error have a large proportion of almost-zero eigenvalues in the Hessian with very few positive or negative eigenvalues. We leverage upon this observation to construct a local-entropy-based objective function that favors well-generalizable solutions lying in large flat regions of the energy landscape, while avoiding poorly-generalizable solutions located in the sharp valleys. Conceptually, our algorithm resembles two nested loops of SGD where we use Langevin dynamics in the inner loop to compute the gradient of the local entropy before each update of the weights. We show that the new objective has a smoother energy landscape and show improved generalization over SGD using uniform stability, under certain assumptions. Our experiments on convolutional and recurrent networks demonstrate that Entropy-SGD compares favorably to state-of-the-art techniques in terms of generalization error and training time.

研究の動機と目的

  • エネルギー地形の局所的な幾何を活用して深層ネットワークの訓練に動機づける。
  • 鋭い局所極小値よりも広い谷を好む局所エントロピーに基づく目的関数を提案する。
  • Langevinダイナミクスを介して局所エントロピーを推定する最適化アルゴリズム(Entropy-SGD)を開発する。
  • 特定の仮定の下で平滑化効果と一般化保証を分析する。
  • CNN、RNN、およびテキスト/ビジョンのベンチマークで実証的な性能を示す。

提案手法

  • 局所エントロピー F(x, gamma) を、x の近傍に焦点を当てた改変された Gibbs 分布の対数分割関数として定義する。
  • 局所エントロピーの勾配を Gibbs 分布に対する期待値として導出し、それを確率的勾配 Langevin ダイナミクス(SGLD)で近似する。
  • 外側の SGD ループとして -F(x, gamma) の勾配で重みを更新し、局所エントロピー勾配を推定するために内側の L 回の SGLD ステップを実行する Entropy-SGD を実装する。
  • 近傍サイズを制御するスコーピングパラメータ gamma を導入し、徐々に広い谷へ焦点を合わせるべく指数スケジュールを提案する。
  • SGLD ステップ、平均化 μ、モメンタム、学習率選択など、実用的な実装の詳細を議論する。
  • より滑らかな局所エントロピー目的が安定性の向上と一般化境界に結びつく理論的視点を提供する。

実験結果

リサーチクエスチョン

  • RQ1局所エントロピーに基づく目的は、標準 SGD と比較して最適化の風景をより滑らかにするか?
  • RQ2Entropy-SGD は広い谷へ探索を偏らせることによってより良い一般化を達成できるか?
  • RQ3スコーピングパラメータ gamma は最適化ダイナミクスと一般化にどのように影響するか?
  • RQ4CNN、RNN、言語モデルで実現可能な一般化と訓練速度の実証的な向上はどの程度か?

主な発見

  • アーキテクチャ全体の局所極小値におけるヘシアン固有値スペクトルは、多くの近似ゼロ方向と少数の大きな正曲率を示し、広い谷がより良い一般化を示唆する。
  • Entropy-SGD はベースラインと同等またはそれ以上の一般化をもたらし、訓練速度もしばしば向上し、RNN では2倍の高速化を含む。
  • 局所エントロピーの勾配を推定するために SGLD を使用することで、実効ロスランドスケープが滑らかになり、安定性ベースの一般化境界が改善される。
  • 本手法は MNIST、CIFAR-10、PTB の深層ネットワークへスケールし、競値のテストエラーと好ましい訓練ダイナミクスを示す。
  • gamma のスコーピングスケジュールは粗いスケールでの探索と細かいスケールでの洗練を可能にし、効率と一般化に寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。