QUICK REVIEW

[論文レビュー] Online Learning Rate Adaptation with Hypergradient Descent

Atılım Güneş Baydin, Robert Cornish|arXiv (Cornell University)|Mar 14, 2017

Stochastic Gradient Optimization Techniques参考文献 27被引用数 77

ひとこと要約

本論文はハイパーグラデント降下法を用いてグローバル学習率をオンラインで適応し、SGD、Nesterov モーメントを用いた SGD、および Adam の収束を改善しつつ、学習率調整の手動作業を削減します。

ABSTRACT

We introduce a general method for improving the convergence rate of gradient-based optimizers that is easy to implement and works well in practice. We demonstrate the effectiveness of the method in a range of optimization problems by applying it to stochastic gradient descent, stochastic gradient descent with Nesterov momentum, and Adam, showing that it significantly reduces the need for the manual tuning of the initial learning rate for these commonly used algorithms. Our method works by dynamically updating the learning rate during optimization using the gradient with respect to the learning rate of the update rule itself. Computing this "hypergradient" needs little additional computation, requires only one extra copy of the original gradient to be stored in memory, and relies upon nothing more than what is provided by reverse-mode automatic differentiation.

研究の動機と目的

勾配法ベースの最適化アルゴリズムにおける自動学習率適応の必要性を動機づける。
ハイパーグラデントを用いて学習率をオンラインで更新する、計算・メモリ効率の高い一般的な手法を提案する。
標準の最適化問題に対してハイパーグラデント降下法をSGD、SGDN、およびAdamに適用して手法を実証する。
ハイパーグラデント降下法が初期学習率α0への依存を減少させ、収束を加速することを示す。

提案手法

ハイパーグラデント降下法を、目的関数に対する学習率の導関数を用いて学習率に対して勾配降下を行うことで定義する。
基本的なHD更新を導出する：α_t = α_{t-1} - β ∂f(θ_{t-1})/∂α かつ θ_t = θ_{t-1} - α_t ∇f(θ_{t-1})、ここでハイパーグラデント ∂f(θ_{t-1})/∂α = ∇f(θ_{t-1}) · ( -∇f(θ_{t-2}) ) 。
単一の追加勾配コピーとドット積を用いてハイパーグラデントを計算し、最小のメモリと計算オーバーヘッドで実現する。
HDの variantesをSGD (SGD-HD)、SGD with Nesterov momentum (SGDN-HD)、および Adam (Adam-HD) に対して実装し、加法的および乗法的なハイパーグラデント更新形を含む。
実装マッピングを提供する：SGD-HD、SGDN-HD、Adam-HD は、通常のアルゴリズムの基礎となる更新文をハイパーグラデントに基づく学習率更新に置換することに対応する。
拡張（α∞への遷移、より高次のハイパーグラデント）と実証評価の設定など、潜在的な拡張を議論する。

実験結果

リサーチクエスチョン

RQ1オンラインの学習率適応をハイパーグラデントで行うことは、一般的な勾配ベースの最適化アルゴリズムの収束を改善するか。
RQ2SGD、SGDN、および Adam はハイパーグラデント降下法を用いることで初期学習率 α0 に対する感度が低下するか。
RQ3HDはニューラルネットワークのトレーニングおよび検証性能に、HDを用いない counterparts と比較してどのような影響を与えるか。
RQ4大規模設定での適用に際して（メモリ、計算、ハイパーグラデント学習率β）などの実用上の考慮点は何か。

主な発見

HD バリアントは、ロジスティック回帰、MNISTの多層ネットワーク、CIFAR-10のVGG風ネットワークにおいて、非HD counterparts の性能を一貫して改善するか、同等にする。
学習率 α_t は初期に上昇し、その後小さい値へ減衰する傾向があり、自己幾何学的適応を可能にする。
特定の未調整の α0 に対して、SGD-HD、SGDN-HD、Adam-HD は、調整された α0 を用いた最適な軌跡に近い損失の推移をもたらす。
Adam-HD は通常の Adam よりも顕著に良いトレーニング性能を達成することがあり、時には検証性能も向上する。
HD は効果的な学習率を見つけるための広範なハイパーパラメータ探索（グリッド/ランダム/ベイズ）を減らす。
このアプローチはメモリ効率が高く、勾配の追加コピー1つのみを必要とし、追加の自動微分機構は不要。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。