Skip to main content
QUICK REVIEW

[論文レビュー] Quasi-Newton Methods for Deep Learning: Forget the Past, Just Sample.

Albert S. Berahas, Majid Jahani|arXiv (Cornell University)|Jan 28, 2019
Model Reduction and Neural Networks参考文献 60被引用数 36
ひとこと要約

本論文は、深層学習におけるサンプリングされた準ニュートン法—S-LBFGS および S-LSR1—を導入している。各反復において現在の反復周辺の点をランダムにサンプリングし、ヘッセ行列またはその逆行列の近似を構築する。過去の反復に依存するのではなく、最近の局所的データに依存することで、収束性と効率性が向上し、トロイ・クラスおよび実世界のニューラルネットワークベンチマークにおいて、古典的手法を上回る性能を示している。

ABSTRACT

We present two sampled quasi-Newton methods for deep learning: sampled LBFGS (S-LBFGS) and sampled LSR1 (S-LSR1). Contrary to the classical variants of these methods that sequentially build Hessian or inverse Hessian approximations as the optimization progresses, our proposed methods sample points randomly around the current iterate at every iteration to produce these approximations. As a result, the approximations constructed make use of more reliable (recent and local) information, and do not depend on past iterate information that could be significantly stale. Our proposed algorithms are efficient in terms of accessed data points (epochs) and have enough concurrency to take advantage of parallel/distributed computing environments. We provide convergence guarantees for our proposed methods. Numerical tests on a toy classification problem as well as on popular benchmarking neural network training tasks reveal that the methods outperform their classical variants.

研究の動機と目的

  • 古典的手法が古くさい過去の反復情報に依存するため、深層学習において非効率であるという問題に取り組む。
  • 過去の反復を蓄積するのではなく、最近の局所的データポイントを用いることで、収束性と最適化の効率性を向上させる。
  • データのサンプリングにより、分散コンピューティング環境における並列処理とスケーラビリティを向上させる。
  • 深層学習におけるサンプリングされた準ニュートン法に理論的収束保証を提供する。
  • 標準的な深層学習タスクにおいて、提案手法が古典的手法 LBFGS および LSR1 を上回ることを実験的に検証する。

提案手法

  • 深層学習のための古典的手法のサンプリング版として、S-LBFGS および S-LSR1 を提案する。
  • 各反復において、現在の反復周辺の点をランダムにサンプリングし、ヘッセ行列またはその逆行列の近似を構築する。
  • 過去の反復に依存せず、最近の局所的データのみを用いて近似を形成する。
  • 各反復におけるサンプル点の数を制限することで、低メモリかつ低計算コストを維持する。
  • 標準的な仮定の下で収束を保証するように、サンプリングを準ニュートン更新機構に統合する。
  • サンプリング点および勾配評価の並列計算を可能にするため、並列性を活用する。

実験結果

リサーチクエスチョン

  • RQ1現在の反復周辺の最近の局所的点をサンプリングすることで、深層学習におけるヘッセ行列近似の質が向上するか?
  • RQ2過去の反復に依存するのではなく、サンプリングされたデータに置き換えることで、準ニュートン最適化の収束が速くなるか?
  • RQ3サンプリングされた準ニュートン法は、分散環境でより優れたスケーラビリティとパフォーマンスを達成できるか?
  • RQ4深層学習におけるサンプリングされた準ニュートン法に、どのような理論的収束保証を確立できるか?
  • RQ5S-LBFGS および S-LSR1 は、標準的な深層学習ベンチマークにおいて、古典的手法 LBFGS および LSR1 より優れているか?

主な発見

  • S-LBFGS および S-LSR1 は、トロイ分類問題において古典的手法 LBFGS および LSR1 を上回り、より速い収束と低い損失を示した。
  • 提案手法は、一般的なベンチマークニューラルネットワークタスクにおいて、古典的手法よりも優れたテスト精度を達成した。
  • S-LBFGS および S-LSR1 は収束に必要なデータアクセス回数(エポック数)が少なく、データ効率性が向上した。
  • これらの手法は優れたスケーラビリティを示し、並列および分散コンピューティングリソースを効果的に活用できた。
  • 標準的な仮定の下で理論的収束保証が確立され、サンプリングに基づくアプローチの堅牢性が裏付けられた。
  • 最近の局所的サンプリングの使用により、古くさい過去の反復に依存する度合いが低下し、より信頼性の高いヘッセ行列近似が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。