QUICK REVIEW

[論文レビュー] Training Neural Networks with Stochastic Hessian-Free Optimization

Ryan Kiros|arXiv (Cornell University)|Jan 16, 2013

Stochastic Gradient Optimization Techniques参考文献 21被引用数 27

ひとこと要約

本論文は、データセットサイズに依存しない勾配および曲率・ベクトル積を用いるミニバッチ版の確率的ヘッシアンフリーハイパーパラメータ最適化（Stochastic Hessian-Free; SHF）を提案する。SHFは、SGDの一般化性能と2次曲率情報の両方の利点を統合し、学習率のチューニングを必要とせず、画像分類およびディープオートエンコーダーのタスクで競争力ある性能を達成する。また、過学習を防ぐためにドロップアウトを統合する。

ABSTRACT

Hessian-free (HF) optimization has been successfully used for training deep autoencoders and recurrent networks. HF uses the conjugate gradient algorithm to construct update directions through curvature-vector products that can be computed on the same order of time as gradients. In this paper we exploit this property and study stochastic HF with gradient and curvature mini-batches independent of the dataset size. We modify Martens' HF for these settings and integrate dropout, a method for preventing co-adaptation of feature detectors, to guard against overfitting. Stochastic Hessian-free optimization gives an intermediary between SGD and HF that achieves competitive performance on both classification and deep autoencoder experiments.

研究の動機と目的

データセットサイズに依存しない勾配および曲率ミニバッチを用いる、スケーラブルな確率的ヘッシアンフリーハイパーパラメータ最適化の開発。
特徴抽出器の共適応を防ぎ、過学習を軽減するため、HF最適化にドロップアウトを統合する。
SGDの一般化利点とHFの曲率に配慮した更新を統合し、バッチサイズおよび共役勾配（CG）反復回数の制御により、適応的動作を可能にする。
SHFを分類タスクおよびディープオートエンコーダーのタスクで評価し、SGD、HF、モーメンタム、ネステロフ加速勾配法と比較する。
SHFが手動による学習率チューニングを不要とし、多様なアーキテクチャおよびタスクで競争力ある性能を維持できることを示す。

提案手法

マーテンズのヘッシアンフリーフレームワークを、データセットサイズに依存しないミニバッチ上で計算される確率的勾配および曲率・ベクトル積を用いるように変更し、計算コストをデータセットサイズから分離する。
共役勾配（CG）反復を用いてヘシアン・ベクトル積により更新方向を計算し、明示的なヘシアン行列の計算を回避する。
訓練中にドロップアウトを正則化子として統合し、特徴抽出器の共適応を防ぎ、一般化性能を向上させる。
勾配および曲率のミニバッチサイズを調整することで、SHFの挙動をSGDに近いものからHFに近いものへと制御可能にする。
訓練が発散した際にデカップリングをオフにする動的CG減衰パラメータを適用し、高曲率領域での微調整を可能にし、モーメンタムの冷却に類似した挙動を実現する。
先行研究にインspiredされた分散に基づくバッチサイズ制御を勾配および曲率推定に適用するが、本研究ではバッチサイズを固定する。

実験結果

リサーチクエスチョン

RQ1勾配および曲率・ベクトル積にミニバッチを用いることで、大規模データセットにスケーラブルに拡張可能な、ヘッシアンフリーハイパーパラメータ最適化の確率的バージョンを設計できるか？
RQ2ヘッシアンフリーハイパーパラメータ最適化にドロップアウトを統合することで、分類およびオートエンコーダーの両タスクで一般化性能が向上し、過学習が軽減されるか？
RQ3SHFは、手動による学習率チューニングを必要とせず、多様なニューラルネットワークアーキテクチャでSGDおよびHFと同等の性能を達成できるか？
RQ4ミニバッチサイズと共役勾配反復回数の相互作用が、最適化のダイナミクスおよび収束にどのように影響するか？
RQ5動的CG減衰機構は、固定されたモーメンタムスケジュールと比較して、高曲率領域での収束をどの程度改善するか？

主な発見

CURVESデータセットでは、SHFは訓練誤差0.089を達成し、HF（0.110）を上回り、最良の性能を示す手法と同等の性能を示した。これは、最適化が難しいオートエンコーダー課題において改善されたことを示している。
MNISTでは、SHFは訓練誤差0.877を達成し、HF（0.780）およびモーメンタムベースの手法と同等の性能を示した。これは、標準的なオートエンコーダーベンチマークで強い性能を示している。
リーマンズテキスト分類データセットでは、ドロップアウトを用いたSHFが競争力あるテスト精度を達成したが、ドロップアウトなしのSHFは訓練データに過学習した。一般化の重要性を確認した。
SHFは手動による学習率チューニングの必要性を排除し、実験全体で安定した性能を維持した。一方、1次最適化手法は、慎重なハイパーパramータスケジューリングを必要としていた。
小さなバッチとたった5回のCG反復での実験では、悪い結果（例：CURVESで0.19）が得られた。これは、ノイズの多い更新が高曲率領域での進行を妨げることを示している。
発散後にデカップリングをオフにする動的CG減衰機構は、特にCURVESにおいて訓練誤差を顕著に低減し、複雑な損失関数の地形を効果的に探索できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。