QUICK REVIEW

[論文レビュー] Without-Replacement Sampling for Stochastic Gradient Methods: Convergence Results and Application to Distributed Optimization

Ohad Shamir|arXiv (Cornell University)|Mar 2, 2016

Stochastic Gradient Optimization Techniques参考文献 34被引用数 19

ひとこと要約

本稿は、再抽出なしサンプリングを用いた確率的勾配法の理論的収束保証を提供し、主要な状況において再抽出ありサンプリングと顕著に差がないことを示している。オンラインレジーレット最小化アルゴリズム、SGD、SVRGに対して境界を確立し、SVRGの解析を応用して、ランダムなデータ分割のもとで通信量と実行時間の複雑さが低い正則化最小二乗法のほぼ最適な分散アルゴリズムを設計した。

ABSTRACT

Stochastic gradient methods for machine learning and optimization problems are usually analyzed assuming data points are sampled \emph{with} replacement. In practice, however, sampling \emph{without} replacement is very common, easier to implement in many cases, and often performs better. In this paper, we provide competitive convergence guarantees for without-replacement sampling, under various scenarios, for three types of algorithms: Any algorithm with online regret guarantees, stochastic gradient descent, and SVRG. A useful application of our SVRG analysis is a nearly-optimal algorithm for regularized least squares in a distributed setting, in terms of both communication complexity and runtime complexity, when the data is randomly partitioned and the condition number can be as large as the data size per machine (up to logarithmic factors). Our proof techniques combine ideas from stochastic optimization, adversarial online learning, and transductive learning theory, and can potentially be applied to other stochastic optimization and learning problems.

研究の動機と目的

再抽出なしサンプリングが実際の応用で再抽出ありサンプリングを上回る理由を理論的に解明する理論的ギャップを埋める。
データに対して1回または少数回のパスを回る状況において、再抽出なしサンプリングを用いた確率的勾配法の収束境界を提供する。
再抽出なしサンプリングのもとでSVRG解析を活用し、正則化最小二乗法のほぼ最適な分散アルゴリズムを開発する。
オンライン学習、トランスductive学習、確率的最適化の概念を統合し、再抽出なしサンプリングにおける依存構造を分析する。

提案手法

敵対的オンラインレジーレット境界とトランスductiveラデマッハ複雑度を用いて、凸関数に対する単一パス再抽出なしサンプリングにおける劣化の特徴を付与する。
強い凸性と滑らかさを持つ損失関数に対する確率的勾配降下法に適用し、問題パラメータに依存する収束レートを導出する。
正則化最小二乗法におけるSVRGアルゴリズムを再抽出なしサンプリングのもとで解析し、高確率で期待値の収束を示す。
ランダムに分割されたデータにSVRG解析を適用し、分散最適化における通信量と計算量の複雑さの境界を導出する。
一様収束と集中不等式を用いて、再抽出なし設定における従属サンプリングがもたらす分散を制御する。
再帰的誤差境界とエポックごとの解析を用いて、期待される劣化が指数関数的に減少することを示し、目標精度を達成するためのエポック数が対数的であることを導く。

実験結果

リサーチクエスチョン

RQ1再抽出なしサンプリングの依存構造にもかかわらず、確率的勾配法におけるその経験的成功を理論的に正当化できるか？
RQ2凸最適化問題において、再抽出なしサンプリングの収束速度が再抽出ありサンプリングと顕著に劣らないことを証明できるか？
RQ3再抽出なしサンプリングを用いたSVRGアルゴリズムは、分散学習環境においてほぼ最適な通信量と計算量の複雑さを達成できるか？
RQ4オンラインレジーレットとトランスductive学習の概念を統合することで、確率的最適化における従属サンプリングを分析できるか？
RQ5再抽出なしサンプリングの理論的解析を、SVRGを越える他の高速確率的アルゴリズムへ拡張できるか？

主な発見

任意のオンラインレジーレット保証を持つアルゴリズムについて、データのランダムな順列を1回パスした後の劣化は、アルゴリズムのレジーレットと仮説集合のトランスductiveラデマッハ複雑度の和で上限づけられる。
強い凸性と滑らかさを持つ損失関数に対する確率的勾配降下法では、期待される劣化がエポック数とともに指数関数的に減少し、sエポック後にはO(1/4^s)のレートを達成する。
再抽出なしサンプリングを用いたSVRGアルゴリズムは、期待される劣化がε未満になるまでにO(log(1/ε))エポックで収束し、使用されるサンプル数はm/2で上限づけられる。
正則化最小二乗法のほぼ最適な分散アルゴリズムが得られ、通信量と実行時間の複雑さが、各マシンの条件数がデータサイズに対して対数的要因の範囲内で制限される条件下で情報理論的下界にほぼ一致する。
再抽出なしサンプリングが、期待値において再抽出ありサンプリングと顕著に劣化しないことが解析によって示された、特に単一パスの状況でも同様である。
導出された境界は、滑らかさ、強い凸性、データサイズなどの問題パラメータに依存し、分散設定において対数的要因を除いてタイトであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。