QUICK REVIEW

[論文レビュー] Fast large-scale optimization by unifying stochastic gradient and quasi-Newton methods

Jascha Sohl‐Dickstein, Ben Poole|arXiv (Cornell University)|Nov 9, 2013

Stochastic Gradient Optimization Techniques参考文献 42被引用数 83

ひとこと要約

本稿では、和構造の目的関数における各部分関数に対して独立したヘッセ行列の近似を維持することにより、確率的勾配降下法（SGD）と準ニュートン法を統合する新規最適化アルゴリズムであるStochastic First-Order（SFO）を提案する。これらの近似を低次元の適応的部分空間に射影することにより、最小限のハイパーパrameterチューニングで高速な収束を達成し、深層ネットワークやロジスティック回帰を含む多様な機械学習タスクにおいて、SGDおよびヘッセ行列フリー法を凌駕する性能を示した。

ABSTRACT

We present an algorithm for minimizing a sum of functions that combines the computational efficiency of stochastic gradient descent (SGD) with the second order curvature information leveraged by quasi-Newton methods. We unify these disparate approaches by maintaining an independent Hessian approximation for each contributing function in the sum. We maintain computational tractability and limit memory requirements even for high dimensional optimization problems by storing and manipulating these quadratic approximations in a shared, time evolving, low dimensional subspace. Each update step requires only a single contributing function or minibatch evaluation (as in SGD), and each step is scaled using an approximate inverse Hessian and little to no adjustment of hyperparameters is required (as is typical for quasi-Newton methods). This algorithm contrasts with earlier stochastic second order techniques that treat the Hessian of each contributing function as a noisy approximation to the full Hessian, rather than as a target for direct estimation. We experimentally demonstrate improved convergence on seven diverse optimization problems. The algorithm is released as open source Python and MATLAB packages.

研究の動機と目的

大規模最適化問題における完全準ニュートン法の計算非効率性を解消し、確率的勾配降下法の効率性と2次曲率情報の両方を組み合わせることを目的とする。
従来の確率的2次最適化手法が、部分関数のヘッセ行列を全ヘッセ行列のノイズ混じりの近似とみなすのではなく、直接推定の対象とすることを目的とする。
準ニュートン法に共通するハイパーパrameterへの感受性を低減しつつ、適応的ヘッセ行列近似を用いて高速収束を維持することを目的とする。
時間とともに変化する低次元部分空間にヘッセ行列近似を射影することにより、高次元設定でもスケーラブルかつ低メモリの最適化を可能とすることを目的とする。

提案手法

アルゴリズムは、各部分関数 $ f_i( extbf{x}) $ に対して、勾配履歴に基づいてBFGS更新を用いて改善する別個の二次近似 $ g_i^t( extbf{x}) $ を維持する。
最適化は2つの交互に繰り返されるステップで進行する：(1) 現在の近似の和 $ G^{t-1}( extbf{x}) = \sum_i g_i^{t-1}( extbf{x}) $ の最小化、および (2) 新しいパラメータ値 $ \textbf{x}^t $ の周囲における2次展開を用いて、1つの $ g_i^t( extbf{x}) $ を更新すること。
すべてのヘッセ行列近似は、勾配履歴とパラメータ更新履歴によって張られる共通の低次元部分空間に格納・操作され、計算およびメモリの扱いやすさが保証される。
SGDと同様に1ステップあたり1つの部分関数評価しか行わず、一方で準ニュートン法と同様に近似逆ヘッセ行列情報を使ってステップサイズをスケーリングすることで、手動によるハイパーパrameterチューニングの必要性を低減する。
部分空間は時間経過とともに適応的に更新され、全ヘッセ行列の計算を必要とせずに、主要な曲率方向を捉える。
アルゴリズムは自然に並列化可能であり、個々の部分関数近似の非同期更新を可能とし、オンライン／無限データ設定に対応できる。

実験結果

リサーチクエスチョン

RQ1完全ヘッセ行列の計算コストを負担せずに、確率的最適化手法が2次曲率情報を効果的に活用できるか？
RQ2各部分関数に対する独立したヘッセ行列近似を、共有された低次元部分空間に効率的に維持できるか？
RQ3準ニュートン法のステップサイズ適応性とSGDの計算効率を組み合わせることで、大規模問題における収束速度が向上するか？
RQ4本手法により、SGDおよび準ニュートン法に共通する手動によるハイパーパrameterチューニングの必要性が低減または解消できるか？

主な発見

SFOは、CURVESデータセット上でトレーニングされた12層のニューラルネットワークにおいて、ヘッセ行列フリー最適化を上回る収束速度を示し、有効なデータパス数を約10分の1にまで削減した。
ロジスティック回帰、イジング模型、深層ネットワークを含む7つの多様な最適化問題において、SFOはベースライン手法と比較して一貫して改善された収束を示した。
アルゴリズムはほとんどまたは全くハイパーパrameterチューニングを必要とせず、データそのものが持つ曲率情報を活用してステップサイズと方向を適応的に調整した。
低次元部分空間の使用により、高次元問題においてもメモリおよび計算の効率性が維持され、スケーラビリティが保証された。
本手法は、実用的な機械学習応用への導入を支援するオープンソースのPythonおよびMATLABパッケージとして、成功裏にリリースされた。
実験的結果から、SFOは、幅広いタスクにおいて、標準的なSGDおよび準ニュートン法を上回る収束速度と頑健性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。