[論文レビュー] Krylov Subspace Descent for Deep Learning
本稿では、勾配とヘシアン・ベクトル積からなるクライロフ部分空間を構築し、その低次元部分空間内でデータサブセットを用いてBFGSによる最適化を行う、深層学習のための2次最適化手法であるKrylov Subspace Descent (KSD) を提案する。KSDは、正定値ヘシアン近似や減衰パラメータの調整を必要とせず、Hessian Free (HF) や L-BFGS、SGD よりも高速な収束性と優れた一般化性能を達成する。
In this paper, we propose a second order optimization method to learn models where both the dimensionality of the parameter space and the number of training samples is high. In our method, we construct on each iteration a Krylov subspace formed by the gradient and an approximation to the Hessian matrix, and then use a subset of the training data samples to optimize over this subspace. As with the Hessian Free (HF) method of [7], the Hessian matrix is never explicitly constructed, and is computed using a subset of data. In practice, as in HF, we typically use a positive definite substitute for the Hessian matrix such as the Gauss-Newton matrix. We investigate the effectiveness of our proposed method on deep neural networks, and compare its performance to widely used methods such as stochastic gradient descent, conjugate gradient descent and L-BFGS, and also to HF. Our method leads to faster convergence than either L-BFGS or HF, and generally performs better than either of them in cross-validation accuracy. It is also simpler and more general than HF, as it does not require a positive semi-definite approximation of the Hessian matrix to work well nor the setting of a damping parameter. The chief drawback versus HF is the need for memory to store a basis for the Krylov subspace.
研究の動機と目的
- 大規模な訓練データを伴う高次元かつ非凸な深層学習問題に対して、よりロバストで汎用性の高い2次最適化手法を開発すること。
- Hessian Free (HF) 最適化に必要なヒューリスティックな減衰パラメータの調整や正定値ヘシアン近似の必要性を排除すること。
- SGD や L-BFGS や HF よりも、深層ニューラルネットワーク学習における収束速度と一般化性能を向上させること。
- 高度な2次最適化手法(例:KSD)が、深層ネットワークにおける事前学習の必要性を排除できるかどうかを検討すること。
- 多様な深層学習タスクにおいて、ヘシアンとガウス=ニュートン近似の両方を用いてKSDの有効性を評価すること。
提案手法
- KSDは、勾配と連続するヘシアン・ベクトル積からなるクライロフ部分空間を構築する:$\text{span}(\mathbf{g}_m, \mathbf{H}_m\mathbf{g}_m, \dots, \mathbf{H}_m^{K-1}\mathbf{g}_m)$、ここで $K$ は固定(例:20 または 80)。
- 各反復において、目的関数とその微分を計算するための訓練データサブセットを用いて、クライロフ部分空間内でBFGS最適化を実行する。
- ヘシアン・ベクトル積は、明示的なヘシアン行列の構築を避けるためにピアルモントのテクニックを効率的に用いる。
- 必要に応じて、ヘシアンの代わりに正定値代替としてガウス=ニュートン行列を用いることで、不定ヘシアンでも安定した最適化を可能にする。
- Levenberg-Marquardtの減衰を必要としないように、クライロフ部分空間を通じて最適な正則化経路を暗黙的に選択する。
- 勾配やヘシアン・ベクトル積を含むすべての計算は、メモリと計算コストの削減を目的として、GPU上でミニバッチを用いて実行する。
実験結果
リサーチクエスチョン
- RQ1明示的なヘシアン逆行列計算や減衰パラメータの調整を回避する2次最適化手法が、Hessian Free (HF) や L-BFGS よりも深層学習の学習で優れた性能を発揮できるか?
- RQ2Krylov Subspace Descent は、標準的な深層学習ベンチマークにおいて、HF や L-BFGS よりも高速な収束性と優れた一般化性能を達成できるか?
- RQ3過学習が顕著でない状況では、KSD といった高度な2次最適化手法を用いる際に、事前学習が必須であるか?
- RQ4ヘシアンが正定値でない場合でも、ガウス=ニュートン行列と実際のヘシアンの両方を用いたKSDの性能はどのようになるか?
- RQ5HFで必要な構造的減衰を必要とせず、再帰的ニューラルネットワークにもKSDを効果的に適用できるか?
主な発見
- KSDは、CURVES、MNIST、Aurora、Starcraft といったすべての評価データセットで、Hessian Free (HF) や L-BFGS よりも高速に収束する。
- MNIST分類タスクでは、KSDが1.70%の交差検証誤差を達成したのに対し、HFは2.01%であり、両者ともに訓練誤差はゼロであった。
- Aurora音声認識タスクでは、KSDが交差検証誤差をHFの8.7%から8.1%まで低下させ、かつ学習を3.3倍高速に完了した。
- CURVESデータセットでは、KSDが交差検証誤差を0.25から0.19まで低下させ、時間はHFの20%にまで短縮した。
- ヘシアンの代わりにガウス=ニュートン行列を用いても性能の劣化が認められず、ヘシアンが正定値でない場合でも安定して動作した。
- MNISTを除き、KSDではすべてのタスクで事前学習が不要であることが判明した。MNISTではわずかに性能向上が見られたが、KSDが多くの深層学習のシナリオで事前学習の必要性を排除できる可能性を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。