[論文レビュー] A Progressive Batching L-BFGS Method for Machine Learning
PBQNを導入する。逐次サンプリング、確率的 Armijo スタイルのラインサーチ、安定な L-BFGS 更新を組み合わせた progressive-batching 準ニュートンアルゴリズムで、ロジスティック回帰と深層ネットを良好な一般化と並列性を持って訓練する。収束理論は凸および非凸設定の両方に対して提供される。
The standard L-BFGS method relies on gradient approximations that are not dominated by noise, so that search directions are descent directions, the line search is reliable, and quasi-Newton updating yields useful quadratic models of the objective function. All of this appears to call for a full batch approach, but since small batch sizes give rise to faster algorithms with better generalization properties, L-BFGS is currently not considered an algorithm of choice for large-scale machine learning applications. One need not, however, choose between the two extremes represented by the full batch or highly stochastic regimes, and may instead follow a progressive batching approach in which the sample size increases during the course of the optimization. In this paper, we present a new version of the L-BFGS algorithm that combines three basic components - progressive batching, a stochastic line search, and stable quasi-Newton updating - and that performs well on training logistic regression and deep neural networks. We provide supporting convergence theory for the method.
研究の動機と目的
- Progressive batching を用いて確率的手法の速度と全バッチ準ニュートン法の精度をブレンドする動機付け。
- PBQN アルゴリズムを開発し、 progressive sampling、確率的ラインサーチ、安定な L-BFGS 更新を統合する。
- progressive sampling の下で強凸および非凸目的関数の収束理論を提供する。
- ロジスティック回帰とニューラルネットワークで方法を実証し、性能と一般化を評価する。
- 実務的側面と並列/分散実装の可能性を検討する。
提案手法
- PBQN を提案:x_{k+1} = x_{k} - α_{k} H_{k} g_{k}^{S_{k}}、ここで H_{k} は L-BFGS、g_{k}^{S_{k}} はサブサンプリングされた勾配。
- バッチサイズ |S_{k}| が、確率的内部積準ニュートン(IPQN)テスト(真の方向との角度に基づく)を満たさない場合に増加する progressive sampling スキームを使用。
- 探索方向が高確率で真の準ニュートン方向と一致するよう、二次導関数法にも拡張した内部積テストを適用。
- 分散情報に基づく推定値(式 (Eq. 14))に導かれた初期ステップ α_{k} を用い、期待値の減少を保証する Armijo 風のバックトラックラインサーチを導入。
- バッチがイテレーション間で変化する場合に Hessian 更新を安定化させるため、重なりベースの戦略(y_{k} = g_{k+1}^{O_{k}} - g_{k}^{O_{k}})を採用。
- y_{k} の計算に関して、25% の重なりを持つマルチバッチ(MB)と全重なり(FO)アプローチの二つのオプションを提供し、更新適格性を満たすため y_{k}^{T}s_{k} > ε‖s_{k}‖^{2} という曲率条件を用いる。
実験結果
リサーチクエスチョン
- RQ1 progressive batching と確率的ラインサーチは ML 設定で準ニュートン更新の信頼できる降下方向を提供できるか?
- RQ2PBQN 法は SG ベースの方法と比較して、ロジスティック回帰および深層ニューラルネットワークで訓練性能と一般化性能が競争力を持つか?
- RQ3progressive sampling の下で PBQN の強凸/非凸レジームに対する収束保証は何か?
- RQ4曲率対の重なりの選択は安定性と性能にどのような影響を与えるか?
- RQ5PBQN は良好なスケーラビリティを持つ並列/分散実装に適しているか?
主な発見
- PBQN はロジスティック回帰において、訓練誤差、テスト損失、テスト精度の点で SG および SVRG と datasets 全体で良好に競合する。
- MB 曲率ベクトルのアプローチは、ロジスティック回帰実験で一般に FO より優れている。
- ニューラルネットワークにおいて、PBQN は SG や Adam に匹敵する最良のテスト精度を達成しつつ、反復回数は少なく、勾配評価は多い。
- 分散ベースの式( Eq. 14 )から得られる初期ステップ長はラインサーチによって安定して受け入れられ、効率的なバックトラックをもたらす。
- 収束理論は、適切なステップサイズの下で強凸 F に対して線形収束を、標準的な滑らかさと有界性仮定の下で非凸 F に対して勾配ノルム収束を示す。
- 二次情報のためほとんどパラメータチューニングを必要とせず、検証された問題全体でロバスト性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。