QUICK REVIEW

[論文レビュー] Less than a Single Pass: Stochastically Controlled Stochastic Gradient Method

Lihua Lei, Michael I. Jordan|arXiv (Cornell University)|Sep 12, 2016

Stochastic Gradient Optimization Techniques参考文献 46被引用数 18

ひとこと要約

本稿では、低精度問題において1回のデータフルパス未塔で収束を達成する、分散低減型最適化手法であるStochastically Controlled Stochastic Gradient (SCSG) を提案する。幾何分布に従う確率的変数を用いて反復回数とミニバッチ勾配のサブサンプリングを制御することで、データセットサイズnに線形に依存しない計算コストと通信コストを実現し、特に低精度領域において理論的・実践的にSGDを上回る性能を発揮する。

ABSTRACT

We develop and analyze a procedure for gradient-based optimization that we refer to as stochastically controlled stochastic gradient (SCSG). As a member of the SVRG family of algorithms, SCSG makes use of gradient estimates at two scales, with the number of updates at the faster scale being governed by a geometric random variable. Unlike most existing algorithms in this family, both the computation cost and the communication cost of SCSG do not necessarily scale linearly with the sample size $n$; indeed, these costs are independent of $n$ when the target accuracy is low. An experimental evaluation on real datasets confirms the effectiveness of SCSG.

研究の動機と目的

計算および通信コストがデータセットサイズnに線形に依存する既存のSVRGファミリー手法の非効率性を是正すること。
特に目標精度εが低い場合に、データを1回未塔のパスで収束を達成する手法の開発。
幾何分布に従う確率的変数を用いた反復回数の制御を導入することで、計算および通信コストのnへの依存を低減すること。
SGDが理論的保証を持たない多くの実用的問題においても、有限かつ小さい上限を持つ新たな問題の難易度測度H(f)を導入すること。
SGDと同等の収束速度を維持しつつ、特に低精度領域で顕著に改善された定数を達成するSCLGの性能を示すこと。

提案手法

全データセット勾配ではなく、サブサンプルされたフル勾配推定を用いるSVRGの変種としてSCSGを提案する。
幾何分布に従う確率的変数を用いて内部反復回数を制御し、高い確率で早期終了を可能にする。
二段階の勾配推定を用いる：ミニバッチからの確率的勾配と、サブサンプルされたフル勾配からの制御変数。
有限和最適化問題の固有の難易度を特徴付ける新たな問題固有の測度H(f)を導入する。
アルゴリズムを設計し、目標精度εが低い場合に計算および通信コストがnに依存しなくなるようにする。
理論的分析により、勾配評価回数の期待値がO((H(f)/(με) ∧ n + κ) log(Δf/ε))に比例することを示し、SGDで用いられる一様勾配ノルムの上限に代わってH(f)が用いられることを示す。

実験結果

リサーチクエスチョン

RQ1低精度問題において、分散低減型確率的最適化手法が1回のデータパス未塔での収束を達成できるか？
RQ2有限和最適化において、計算および通信コストをnに線形依存を超えて低減する方法は何か？
RQ3SGDで用いられる一様勾配ノルムの上限に代わる、新たな問題測度は何か？それは有限かつタイトな収束保証を提供するか？
RQ4反復回数に対する確率的制御機構は、最適化における理論的および実践的性能を向上させ得るか？
RQ5新たな難易度測度H(f)は、既存の測度と比較して、有限和問題の固有の複雑さをどれほど適切に捉えられるか？

主な発見

目標精度εが低い場合に、SCSGは1回のフルデータパス未塔での収束を達成でき、大規模問題において極めて効率的である。
SCSGの期待計算コストはO((H(f)/(με) ∧ n + κ) log(Δf/ε))であり、標準的なSVRGやSGDとは異なり、εが小さい場合にnに対してサブラインアリスとなる。
アルゴリズムの収束速度はH(f)に依存するが、これは多くの実用的問題（例：最小二乗法、ロジスティック回帰）においてO(1)となる有限な測度であり、SGDで用いられる可能性が無限大になる一様勾配ノルムの上限とは対照的である。
多クラスロジスティック回帰において、H(f) ≤ (2/n)∑‖ai‖²であることを証明し、標準的な仮定のもとでH(f)が有界かつ小さいままであることを示している。
実データセットを用いた実験結果により、SCSGが収束速度および通信効率の面でSGDおよび他のSVRG変種を上回ることを確認した。
理論的分析により、SCSGは低精度領域においてSGDに劣ることがなく、H(f)測度のおかげで顕著に改善された定数を達成できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。