QUICK REVIEW

[論文レビュー] SARAH: A Novel Method for Machine Learning Problems Using Stochastic Recursive Gradient

Lam M. Nguyen, Jie Liu|arXiv (Cornell University)|Mar 1, 2017

Stochastic Gradient Optimization Techniques参考文献 13被引用数 81

ひとこと要約

SARAHは外部ループと内部ループを持つ確率的再帰勾配法を導入し、強凸な有限和問題に対して線形収束を達成します。また過去の勾配を保持する必要がなく、SAG/SAGAとは異なります。

ABSTRACT

In this paper, we propose a StochAstic Recursive grAdient algoritHm (SARAH), as well as its practical variant SARAH+, as a novel approach to the finite-sum minimization problems. Different from the vanilla SGD and other modern stochastic methods such as SVRG, S2GD, SAG and SAGA, SARAH admits a simple recursive framework for updating stochastic gradient estimates; when comparing to SAG/SAGA, SARAH does not require a storage of past gradients. The linear convergence rate of SARAH is proven under strong convexity assumption. We also prove a linear convergence rate (in the strongly convex case) for an inner loop of SARAH, the property that SVRG does not possess. Numerical experiments demonstrate the efficiency of our algorithm.

研究の動機と目的

大規模 n を持つ監督付き学習で一般的な有限和最小化に対処する。
勾配の保存容量を減らす分散削減型の確率的手法を開発する。
強凸Pに対する線形収束を証明し、内部ループの挙動を解析する。
適応的な内部ループサイズで実用的な変種（SARAH）を提供する。
SVRG、SAG、SGD+、FISTAに対する実証的な効率性を示す。

提案手法

外部ループで全勾配を計算し、内部ループで勾配推定を再帰的に更新するSARAHを提案する: v_t = ∇f_i_t(w_t) − ∇f_i_t(w_{t−1}) + v_{t−1}。
SARAHの更新をSVRGと比較し、SARAHの v_t は無偏勾配推定量ではないが、それでも収束保証をもたらすことに留意する。
外部反復ごとの総勾配評価回数が O(n + m) であることを示す。
強凸性の下で内部ループの勾配推定の線形収束を証明し、一般的な凸の場合にはサブ線形収束を示す。
||v_t||^2 に基づく適応的な内部ループ停止基準と固定の最大内部ループサイズ m を備えた SARAH+ を導入する。
学習率に関する緩和された制約と安定性の向上を含む、SVRG に対する理論的利点について論じる。

実験結果

リサーチクエスチョン

RQ1過去の勾配を保存せずに、強凸な有限和目的関数に対して SARAH が線形収束を達成できるか？
RQ2再帰的勾配更新が内部ループと外部ループの丼における分散削減と収束にどう影響するか？
RQ3理論的収束保証（一般凸ではサブ線形、強凸では線形）と、SVRG/SAGA/SAG と比べた実用的な性能はどうか？
RQ4適応的な内部ループサイズを持つ実用的な変種（SARAH+）は、データセット全体で頑健性と性能を向上させるか？

主な発見

SARAH は strongly convex P に対して線形収束を達成し、一般凸 P に対してはサブ線形収束を提供する。
内部ループの勾配分散は時間とともに減少し、SVRG よりも安定性と信頼性を支持する。
SARAH は外部反復ごとに O(n + m) の勾配評価しか必要とせず、学習率は 1/L のオーダーの固定値を用いる。
適応的な内部ループ停止を備えた実用的な SARAH+ 変種は、実践的には頑健性と性能を向上させる。
一部のロジスティック回帰タスクとデータセットで、SARAH と SARAH+ が SVRG、SAG、SGD+、FISTA をしばしば上回ることを実証的に示している。
SARAH の内部ループの線形収束は、標準的な強凸性とより強い μ-強凸性の仮定の下の両方で証明されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。