QUICK REVIEW

[論文レビュー] An adaptive low dimensional quasi-Newton sum of functions optimizer.

Jascha Sohl‐Dickstein, Ben Poole|arXiv (Cornell University)|Nov 9, 2013

Stochastic Gradient Optimization Techniques参考文献 24被引用数 5

ひとこと要約

本稿では、関数の和を最小化するための適応的で低次元の準ニュートン最適化手法を提案する。各関数に対して独立したヘッセ行列近似を、時間的に変化する共通の低次元部分空間に保持することで、確率的勾配降下法の効率性と準ニュートンの曲率利用を組み合わせ、最小化の収束速度を大幅に向上させ、ハイパーパrameterのチューニングを最小限に抑える。

ABSTRACT

We present an algorithm for minimizing a sum of functions that combines the computational efficiency of stochastic gradient descent (SGD) with the second order curvature information leveraged by quasi-Newton methods. We unify these disparate approaches by maintaining an independent Hessian approximation for each contributing function in the sum. We maintain computational tractability and limit memory requirements even for high dimensional optimization problems by storing and manipulating these quadratic approximations in a shared, time evolving, low dimensional subspace. Each update step requires only a single contributing function or minibatch evaluation (as in SGD), and each step is scaled using an approximate inverse Hessian and little to no adjustment of hyperparameters is required (as is typical for quasi-Newton methods). This algorithm contrasts with earlier stochastic second order techniques that treat the Hessian of each contributing function as a noisy approximation to the full Hessian, rather than as a target for direct estimation. We experimentally demonstrate improved convergence on seven diverse optimization problems. The algorithm is released as open source Python and MATLAB packages.

研究の動機と目的

標準の確率的2次最適化手法が計算的に非現実的となる高次元空間における関数の和の効率的最小化という課題に対処すること。
既存の確率的準ニュートン手法が個々の関数のヘッセ行列を全ヘッセ行列のノイズ混じりの近似とみなすという制限を克服すること。
ヘッセ行列近似を共通の時間的に変化する低次元部分空間に投影することで、高次元最適化における計算の tractability と低メモリ使用を維持すること。
個々の関数のヘッセ行列近似を直接推定・利用することで、適応的かつハイパーパrameterを最小限に抑えた更新を可能にすること。
標準的なSGDおよび準ニュートン手法と比較して、多様な最適化問題において収束速度とロバスト性を向上させること。

提案手法

アルゴリズムは、和に含まれる各関数に対して別個のヘッセ行列近似を維持し、各関数をノイズ混じりの代理ではなく直接推定の対象とみなす。
すべてのヘッセ行列近似は、主要な曲率方向を捉えるために時間的に変化する共通の低次元部分空間に投影される。
各最適化ステップでは、1つの関数またはミニバッチの評価のみを用いるため、確率的勾配降下法の計算効率が保たれる。
更新方向は、低次元部分空間から得た近似逆ヘッセ行列を用いてスケーリングされ、全ヘッセ行列の計算なしに2次最適化の利点を活かす。
反復ごとに部分空間とヘッセ行列近似を動的に適応させることで、精度と効率を反復中に維持する。
ヘッセ行列近似と部分空間の進化の適応的性質を活用することで、ハイパーパrameterチューニングを最小限に抑える。

実験結果

リサーチクエスチョン

RQ1個々の関数のヘッセ行列をノイズ混じりの近似として扱う代わりに直接推定することで、SGDよりも高速な収束を達成できるか。

主な発見

提案手法は、7つの多様な最適化問題において、標準的なSGDよりも高速な収束を達成し、高いサンプル効率を示した。
ヘッセ行列近似を共通の低次元部分空間に制限することで、高次元設定下でも低メモリおよび計算コストを維持した。
アルゴリズムはほとんどハイパーパrameterチューニングを必要とせず、従来の準ニュートン手法と比較してユーザーの負担を低減した。
各関数のヘッセ行列を直接推定の対象とすることで、従来の確率的2次最適化手法で一般的なノイズ蓄積問題を回避した。
実験結果では、非凸および悪条件問題において、ベースライン手法と比較して一貫した性能向上が確認された。
PythonおよびMATLABで公開されたオープンソース実装により、機械学習および最適化分野における再現性と広範な採用が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。