[論文レビュー] A Variance Reduced Stochastic Newton Method
本稿では、定数ステップサイズを用いて滑らかで強い凸関数に対して幾何的(線形)収束を達成する、バリアンス低減付きの確率的クァサイレーフォン法Viteを提案する。確率的BFGSフレームワークにバリアンス低減を統合することで、確率的ヘッセ行列近似の高分散問題を克服し、従来の確率的クァサイレーフォン法およびバリアンス低減付きSGD法よりも高速かつ安定した収束を実現する。
Quasi-Newton methods are widely used in practise for convex loss minimization problems. These methods exhibit good empirical performance on a wide variety of tasks and enjoy super-linear convergence to the optimal solution. For large-scale learning problems, stochastic Quasi-Newton methods have been recently proposed. However, these typically only achieve sub-linear convergence rates and have not been shown to consistently perform well in practice since noisy Hessian approximations can exacerbate the effect of high-variance stochastic gradient estimates. In this work we propose Vite, a novel stochastic Quasi-Newton algorithm that uses an existing first-order technique to reduce this variance. Without exploiting the specific form of the approximate Hessian, we show that Vite reaches the optimum at a geometric rate with a constant step-size when dealing with smooth strongly convex functions. Empirically, we demonstrate improvements over existing stochastic Quasi-Newton and variance reduced stochastic gradient methods.
研究の動機と目的
- 確率的クァサイレーフォン法の収束の悪さと不安定性を、高分散な確率的勾配およびヘッセ行列推定に起因するものとして解決すること。
- 勾配の分散低減を確率的2次順序法に組み込むことで、大規模最適化における収束速度とロバスト性を向上させること。
- 定数ステップサイズを用いて幾何的収束を達成すること。これは、従来の確率的BFGS法がステップサイズの減少を要するのに対し、顕著な改善である。
- 実世界のデータセット上で、2次順序情報とバリアンス低減を組み合わせることで優れた性能を発揮することを実証的に示すこと。
提案手法
- SVRGにインspiredされたマルチステージのバリアンス低減スキームを採用し、定期的に更新されるピボットポイントを用いて低分散勾配推定を計算する。
- バリアンス低減勾配推定器を確率的BFGS更新式に適用し、逆ヘッセ行列の再帰的近似を維持する。
- 定数ステップサイズを用いるが、標準的な滑らかさおよび強い凸性の仮定のもとで幾何的収束が保証されることを示している。
- 過去の勾配およびヘッセ行列近似の集合を維持することで、曲率推定プロセスにおけるノイズを低減する。
- 完全なヘッセ行列の明示的計算や逆行列計算を避けるために、BFGS更新式を用いて準ニュートンヘッセ行列近似を構築する。
- 理論的分析により、ヘッセ更新を変更せずに勾配のバリアンス低減のみで幾何的収束が達成可能であることが示されている。
実験結果
リサーチクエスチョン
- RQ1確率的BFGSにバリアンス低減を効果的に適用することで、定数ステップサイズを用いた幾何的収束を達成できるか?
- RQ22次順序情報とバリアンス低減を組み合わせることで、SVRGのような1次順序バリアンス低減法よりも高速な収束が達成できるか?
- RQ3提案手法は、実際の応用において、RES や oBFGS などの既存の確率的クァサイレーフォン法を上回る性能を発揮できるか?
- RQ4ヘッセ行列近似に使用する補助集合のサイズが収束速度および安定性に与える影響は何か?
- RQ5ステップサイズを減少させる必要がないまま、確率的クァサイレーフォン法で幾何的収束を達成できるか?
主な発見
- Viteは、定数ステップサイズを用いて滑らかで強い凸関数に対して幾何的収束を達成する。これは、確率的クァサイレーフォン法において、画期的な結果である。
- 実験的結果により、Cov、Adult、IJCNN といった複数の実世界データセットにおいて、ViteはSVRGおよびRESよりも高速に収束することが示された。
- バリアンス低減付きSGDおよび確率的BFGSの変種よりも一貫して優れた性能を発揮し、2次順序情報とバリアンス低減を組み合わせることの利点を示した。
- ヘッセ行列近似に使用する補助集合が小さいほど性能が向上し、大きな集合は計算コストを増加させるが収束を改善しない。
- Viteは補助集合サイズの異なる値に対しても優れた性能を維持するが、RESは計算オーバーヘッドの増加により、集合が大きくなると性能が低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。