QUICK REVIEW

[論文レビュー] Practical Gauss-Newton Optimisation for Deep Learning

Aleksandar Botev, Hippolyt Ritter|arXiv (Cornell University)|Jun 12, 2017

Blind Source Separation Techniques被引用数 34

ひとこと要約

本稿では、深層学習における実用的なガウス・ニュートン最適化手法KFRAを提案する。この手法は、ガウス・ニュートン行列の再帰的かつブロック対角近似を用い、効率的な2次最適化を可能にする。デフォルトのハイパーパrameterを用いても、Adamのような最先端の1次最適化手法と同等の性能を達成し、KFACよりも正確な正確なガウス・ニュートン更新に近い挙動を示す。

ABSTRACT

We present an efficient block-diagonal ap- proximation to the Gauss-Newton matrix for feedforward neural networks. Our result- ing algorithm is competitive against state- of-the-art first order optimisation methods, with sometimes significant improvement in optimisation performance. Unlike first-order methods, for which hyperparameter tuning of the optimisation parameters is often a labo- rious process, our approach can provide good performance even when used with default set- tings. A side result of our work is that for piecewise linear transfer functions, the net- work objective function can have no differ- entiable local maxima, which may partially explain why such transfer functions facilitate effective optimisation.

研究の動機と目的

完全なヘッセ行列の計算が計算的に非現実的であるのを避ける、深層ニューラルネットワークのための効率的な2次最適化手法の開発。
SGD や Adam などの1次最適化手法におけるハイパーパrameterへの感受性の問題に対処し、最適な性能を得るための広範なチューニングを回避する。
ヘッセ行列の明示的保存や計算を必要としない、スケーラブルな2次最適化アプローチの提供。
シグモイド関数やReLUなどの分類可能な活性化関数を備えたネットワークにおける微分可能な局所的最大値の不在と、ガウス・ニュートン近似との理論的・実験的関係の確立。

提案手法

各層の重みに対応するブロック対角近似を再帰的に計算する。
各ブロックは、活性化（入力統計）から得られる行列と、損失関数の2次勾配（前活性化のヘッセ行列）から得られる行列のクロネッカー積として近似される。
拡張された自動微分を用いて、1回のバックワードパスで勾配と曲率近似の両方を計算する。この際、ヘッセ・ベクトル積を求めるためにR演算子を含む。
Tikhonov型の正則化項（ηとγ）を用いて逆行列の安定化と一般化性能の向上を図る。
標準的な深層学習フレームワークと互換性があり、既存のバックプロパゲーションパイプラインに自然に統合可能である。
指数分布族モデルではKFACと同等の性能を示すが、フィッシャー情報行列ではなくガウス・ニュートン行列の近似に焦点を当てている点で異なる。

実験結果

リサーチクエスチョン

RQ1前向き伝播ネットワークにおいて、1回のバックワードパスで、ガウス・ニュートン行列のブロック対角かつクラッカー因数分解近似を効率的に計算できるか？
RQ2この近似が、広範なハイパーパrameterチューニングなしで、Adamのような1次最適化手法を上回るか同等の2次最適化を達成できるか？
RQ3区分線形活性化関数が効果的な最適化を可能にする理由は何か？これは、損失関数の曲面に微分可能な局所的最大値が存在しないことと関係があるか？
RQ4既存の手法（例：KFAC）と比較して、提案手法が正確なガウス・ニュートン更新にどの程度近いか？
RQ5曲率近似の品質が最適化の収束性および一般化性能に与える影響は何か？

主な発見

提案手法KFRAは、標準ベンチマーク（CURVES, FACES, MNIST）において、学習率スケジューリングやハイパーパrameterチューニングなしで、Adamのようなよくチューニングされた1次最適化手法と同等またはそれを上回る訓練性能を達成した。
特に初期学習段階において、KFACよりも正確なガウス・ニュートン更新に著しく近い挙動を示し、より正確な曲率近似であることが示された。
区分線形活性化関数を備えたネットワークでは、誤差曲面に微分可能な厳密な局所的最大値が存在しないため、これがその良好な最適化挙動の理由である可能性がある。
指数分布族でないモデルでは、ブロック対角ガウス・ニュートン近似がKFACのフィッシャー近似よりも正確であることが判明した。
勾配と曲率近似の両方を1回のバックワードパスで計算できるため、実装が効率的となり、大規模な深層ネットワークに対しても2次最適化を実用可能にした。
実験的結果から、近似の品質（特に完全なガウス・ニュートン行列との一致度）は、MNIST や CURVES では学習全体を通して高く維持されているが、FACES では共役勾配解法の悪条件性のためわずかに低下している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。