QUICK REVIEW

[論文レビュー] SARAH: A Novel Method for Machine Learning Problems Using Stochastic\n Recursive Gradient

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|Feb 28, 2017

Stochastic Gradient Optimization Techniques被引用数 267

ひとこと要約

SARAH は、過去の勾配情報を再帰的更新に用いる有限和最適化の確率的再帰勾配法を導入し、強凸問題に対して線形収束を達成し、過去の勾配を保存する必要がなく、適用可能な variant SARAH+ を内ループ停止の適応化を含む。

ABSTRACT

In this paper, we propose a StochAstic Recursive grAdient algoritHm (SARAH),\nas well as its practical variant SARAH+, as a novel approach to the finite-sum\nminimization problems. Different from the vanilla SGD and other modern\nstochastic methods such as SVRG, S2GD, SAG and SAGA, SARAH admits a simple\nrecursive framework for updating stochastic gradient estimates; when comparing\nto SAG/SAGA, SARAH does not require a storage of past gradients. The linear\nconvergence rate of SARAH is proven under strong convexity assumption. We also\nprove a linear convergence rate (in the strongly convex case) for an inner loop\nof SARAH, the property that SVRG does not possess. Numerical experiments\ndemonstrate the efficiency of our algorithm.\n

研究の動機と目的

監督学習において生じる大規模な有限和問題の効率的な最適化を動機づける。
過去の全ての勾配を保存せずに、勾配を再帰的に更新する分散削減型確率的勾配法を開発する。
収束保証を確立する：強凸性下での線形収束、一般凸設定でのサブ線形収束。
ロバスト性と性能を向上させるために、適用的な内ループ停止を備えた実用的な派生SARAH+を提供する。

提案手法

外ループで全勾配を評価し、内ループで v_t = ∇f_i(w_t) − ∇f_i(w_{t−1}) + v_{t−1} および w_{t+1} = w_t − η v_t を用いるSARAHを導入する。
SARAH は一般に無偏勾配推定器ではないことを示すが、E[v_t] = E[∇P(w_t)] となり、収束解析を可能にする。
適切に選択されたステップサイズ η の下で μ-strong convexity を満たす場合、内ループの勾配推定の線形収束を証明する。
一般凸・強凸の場合の収束結果を提供し、一般凸性ではサブ線形、適切なパラメータ選択で線形を得る。
||v_t||^2 に基づく適応的な内ループ停止と別の最終化規則（t を最後の内インデックスとして選ぶ）を備えた実用的な派生SARAH+ を提案する。
ストレージ、学習率要件、収束保証の観点から SARAH を SVRG、SAG/SAGA、 SGD 系と比較する。

実験結果

リサーチクエスチョン

RQ1SARAH は強凸な有限和問題に対して低ストレージコストを維持しつつ線形収束を達成できるか。
RQ2再帰的勾配更新が、SVRG および SAG/SAGA と比較して分散削減と安定性にどのように影響するか。
RQ3SARAH における一般凸および強凸設定での収束保証は何か、そして SARAH+ が実用的な性能をどう改善するか。
RQ4内ループサイズ m と学習率 η がデータセット全体での収束と頑健性に与える影響は何か。

主な発見

手法	計算量	固定学習率	低ストレージコスト
GD	O(n κ log(1/ε))	✓	✓
SGD	O(1/ε)	✗	✓
SVRG	O((n+κ) log(1/ε))	✓	✓
SAG/SAGA	O((n+κ) log(1/ε))	✓	✗
SARAH	O((n+κ) log(1/ε))	✓	✓
SARAH (one outer loop)	O(n + (1/ε^2))	—	—

SARAH は強凸設定で η = O(1/L) の学習率と condition number κ に相対する内ループサイズ m を選択することで線形収束を達成する。
SARAH の内ループステップの分散は時間とともに減少し、SVRG より安定な更新をもたらす。内ループの線形収束が確立される（定理1a/1b）。
一般凸の場合、SARAH はサブ線形収束を達成し、複数の外ループにより総計算量は O((n + 1/ε) log(1/ε)) になる。
強凸の場合、 SARAH は総計算量 O((n + κ) log(1/ε)) を達成し、SVRG および SAG と同様だが、収束定数が小さく安定性が高い。
SARAH+ は ||v_t||^2 に基づく適応的な内ループ停止基準を提供し、データセットを跨ぐ堅牢な性能を可能にし、しばし SVRG よりもチューニングを要しない。
複数データセットでの実験結果は、SARAH および SARAH+ が損失削減とテスト精度の点で最先端の一階手法を上回るか、同等であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。