QUICK REVIEW

[論文レビュー] Second-Order Stochastic Optimization for Machine Learning in Linear Time

Naman Agarwal, Brian Bullins|arXiv (Cornell University)|Feb 12, 2016

Stochastic Gradient Optimization Techniques参考文献 31被引用数 42

ひとこと要約

この論文は、データスパarsityに線形な反復コストを伴いながらニュートン法に類似した収束速度を達成する、LiSSAと呼ばれる確率的2次最適化アルゴリズムを導入する。これにより、大規模な機械学習における実用的な2次最適化が可能になる。実際のデータセットにおける理論的保証と実効性を維持しながら、実行時間において1次最適化手法と同等またはそれを上回る性能を達成する。

ABSTRACT

First-order stochastic methods are the state-of-the-art in large-scale machine learning optimization owing to efficient per-iteration complexity. Second-order methods, while able to provide faster convergence, have been much less explored due to the high cost of computing the second-order information. In this paper we develop second-order stochastic methods for optimization problems in machine learning that match the per-iteration cost of gradient based methods, and in certain settings improve upon the overall running time over popular first-order methods. Furthermore, our algorithm has the desirable property of being implementable in time linear in the sparsity of the input data.

研究の動機と目的

大規模な機械学習における伝統的な2次最適化手法の反復コストの高さに対処し、効率的なヘシアン行列の近似を可能にする。
反復ごとに線形時間計算量を達成しながらも、高速な収束を維持する確率的2次最適化アルゴリズムを開発する。
訓練例の数が次元数を上回る設定において、1次最適化手法よりも理論的に速い実行時間を達成する。
入力データのスパarsityに線形な時間で実装可能であることを保証し、高次元スパースデータセットに適したものとする。
既存の手法と比較して改善された実行時間の境界を備えた収束に関する理論的保証を提供する。

提案手法

マトリクス逆行列のテイラー展開に基づく、行列逆行列の確率的推定器であるLiSSAを提案し、効率的な近似ニュートンステップを可能にする。
個々のデータ成分をサンプリングすることでヘシアン逆行列の確率的近似を実現し、反復コストをO(d)に低減する。
収束性と安定性を制御するパラメータS₁とS₂を有するバリアンス低減推定器を導入し、最適な性能を得るためS₂をO(κ ln κ)に設定する。
LiSSA-Sampleにおいて、[LMP13, CLM+15]のマトリクスサンプリング技術を活用し、m > dの領域で実行時間の保証を向上させる。
座標系に依存しない、および曲率に配慮したアルゴリズム設計により、ニュートン法の幾何的利点を継承する。
実験により妥当性が裏付けられた適応的パrameterチューニングを実装し、実際にはS₁ = 1およびS₂ ≈ κ ln κを用いる。

実験結果

リサーチクエスチョン

RQ1反復コストを線形時間にまで低減することで、2次最適化が大規模な機械学習に実用的になるか？
RQ2確率的ヘシアン逆行列推定器は、ニュートン法に類似した収束速度を達成しつつも、効率的であるか？
RQ3m ≫ dの状況において、提案手法が1次最適化手法よりも全体の実行時間で優れているか？
RQ4アルゴリズムが入力データのスパarsityに線形時間で実行可能であるか、高次元スパースデータセットへの適用が可能か？
RQ5ヘシアン逆行列推定器の分散が制御可能であり、理論的収束境界が実用的なパrameter設定で達成可能か？

主な発見

LiSSAは、ε-最適解に到達するまでの総実行時間を Õ((m + S₁κ)d log(1/ε)) に抑えることができ、理論的にはS₁がO(κ²)に有界であり、実際にはしばしばO(1)である。
実験では、反復回数の観点で1次最適化手法よりも収束が速く、実世界のデータセットにおいてはウォールクロックタイムでも上回る性能を示した。
LiSSAはデータのスパarsityに線形時間で実行されるため、テキストやレコメンデーションシステムなどの高次元スパースデータに対して効率的である。
実験では、S₂ ≈ κ ln κに設定したLiSSAが最良の収束を達成し、理論的期待と一致した。
条件数κの依存性があるため、well-conditionedな設定ではLiSSAは加速された1次最適化手法（例：APCG）を上回るが、非常に悪条件な状況ではAPCGが優勢である。
LiSSA-Sampleは、m > dの領域において、最新の凸最適化手法よりも優れた実行時間保証を達成し、マトリクスサンプリング技術を活用した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。