QUICK REVIEW

[論文レビュー] Equilibrated adaptive learning rates for non-convex optimization

Yann Dauphin, Harm de Vries|arXiv (Cornell University)|Feb 15, 2015

Stochastic Gradient Optimization Techniques参考文献 18被引用数 152

ひとこと要約

本稿では、非凸最適化における鞍点をより効果的に扱うために等衡化プリコンディショナを用いる、ESGDと呼ばれる適応的学習率手法を提案する。RMSProp やジャコビプリコンディショナと比較して、ヘッシアンの曲率構造に沿った更新方向をとることで、収束が速くなり、MNIST では SGD より 3 倍速い。訓練速度と最終誤差の両面で RMSProp を上回り、RMSProp の成功が等衡化に類似しているという実証的証拠がある。

ABSTRACT

Parameter-specific adaptive learning rate methods are computationally efficient ways to reduce the ill-conditioning problems encountered when training large deep networks. Following recent work that strongly suggests that most of the critical points encountered when training such networks are saddle points, we find how considering the presence of negative eigenvalues of the Hessian could help us design better suited adaptive learning rate schemes. We show that the popular Jacobi preconditioner has undesirable behavior in the presence of both positive and negative curvature, and present theoretical and empirical evidence that the so-called equilibration preconditioner is comparatively better suited to non-convex problems. We introduce a novel adaptive learning rate scheme, called ESGD, based on the equilibration preconditioner. Our experiments show that ESGD performs as well or better than RMSProp in terms of convergence speed, always clearly improving over plain stochastic gradient descent.

研究の動機と目的

非凸最適化における悪条件問題、特に鞍点周辺の悪条件が深層ニューラルネットワークの学習を遅くするという課題に対処すること。
正の固有値と負の固有値を両方含む曲率を持つ状況において、特にジャコビプリコンディショナのような既存の対角プリコンディショナの限界を分析すること。
等衡化プリコンディショナに基づく新しい適応的学習率スケジュール、ESGD を提案すること。これは非凸の地形における混合曲率をより効果的に扱える。
深層オートエンコーダーベンチマーク上で、ESGD が RMSProp や SGD より収束速度と最終損失において優れていることを実証的に検証すること。
RMSProp が実際の深層ネットワーク学習で優れた性能を発揮する理由を、等衡化更新方向と比較することで調査すること。

提案手法

ヘッシアン $ \mathbf{H} $ を用いて、$ \mathbf{D}^{\text{E}} = \sqrt{\text{diag}(\mathbf{H}^2)} $ と定義される等衡化プリコンディショナを導入し、正の方向と負の方向の両方における曲率をバランスさせる。
ESGD は、ミニバッチからの勾配の不偏推定器を用いて $ \mathbf{D}^{\text{E}} $ を逐次的に推定することで、このプリコンディショナを適応的に適用する。
パラメータ空間を $ \hat{\theta} = \mathbf{D}^{1/2} \theta $ と変換することで、新しい関数 $ \hat{f} $ を得る。この関数は曲率がより一様になるため、収束が改善される。
変換された空間でプリコンディショニングされた更新式 $ \theta_t = \theta_{t-1} - \eta \mathbf{D}^{-1} \nabla f(\theta) $ を用いて勾配降下法を適用する。
大規模モデルにおいて計算効率を確保するため、完全なヘッシアンの計算を避けるために対角近似を用いる。
Theano を用いて深層オートエンコーダー上で評価を行い、モーメンタムを用いないことで最適化手法の性能を明確に分離する。

実験結果

リサーチクエスチョン

RQ1非凸最適化における鞍点に特徴的な正負の両方の曲率を持つ状況下で、ジャコビプリコンディショナはどのように性能を発揮するか？
RQ2RMSProp は鞍点の脱出を意図的に設計されていないにもかかわらず、なぜ深層ネットワークの学習で優れた性能を発揮するのか？
RQ3等衡化プリコンディショナは、ジャコビや RMSProp と比較して、非凸設定下でより優れた収束挙動を示すのか？
RQ4訓練過程において、RMSProp の更新方向が等衡化更新方向とどの程度一致しているか？
RQ5等衡化に基づく適応的学習率手法は、収束速度と最終損失の両面で RMSProp や SGD を上回るのか？

主な発見

MNIST オートエンコーダーベンチマークにおいて、ESGD は RMSProp や SGD を著しく上回り、最終的な訓練 MSE が 0.86 にまで低下するのに対し、SGD は 2.1、RMSProp はそれ以上の値を示す。
MNIST では、ESGD は標準的な SGD より約 3 倍速く収束し、250 エポックを過ぎてから性能向上が顕著に現れる。
CURVES データセットでは、ESGD が最も優れた性能を発揮するが、RMSProp との性能差は小さく、プリコンディショナの性能がデータセット依存である可能性を示唆している。
CURVES では、RMSProp が推定するプリコンディショナと等衡化行列とのコサイン距離が低く（約 0.05）あり、更新方向の強い一致が確認された。
MNIST では、1000 エポックを過ぎて RMSProp が等衡化から逸脱し、ESGD に対する性能低下が見られた。これは RMSProp の成功が等衡化に類似していることに起因している可能性を示唆している。
理論的および実証的分析により、ジャコビプリコンディショナは混合曲率の状況で劣った性能を示す一方、等衡化は正負の曲率をより良くバランスさせ、鞍点からの脱出を高速化することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。