QUICK REVIEW

[論文レビュー] Non-convex Finite-Sum Optimization Via SCSG Methods

Lihua Lei, Cheng Ju|arXiv (Cornell University)|Jun 28, 2017

Stochastic Gradient Optimization Techniques被引用数 111

ひとこと要約

本稿では、分散低減と確率的制御を活用して収束複雑度を向上させる、非凸有限和問題向けの新しい確率的最適化手法SCSGを提案する。$O(\min\{\epsilon^{-5/3}, \epsilon^{-1}n^{2/3}\})$ の複雑度バウンドを確立し、SGD や最先端手法を上回る性能を示す。特に低目標精度下で顕著な優位性を示し、深層ニューラルネットワークを用いた実証的検証も実施している。

ABSTRACT

We develop a class of algorithms, as variants of the stochastically controlled stochastic gradient (SCSG) methods , for the smooth nonconvex finite-sum optimization problem. Only assuming the smoothness of each component, the complexity of SCSG to reach a stationary point with $E \| abla f(x)\|^{2}\le \epsilon$ is $O(\min\{\epsilon^{-5/3}, \epsilon^{-1}n^{2/3}\})$, which strictly outperforms the stochastic gradient descent. Moreover, SCSG is never worse than the state-of-the-art methods based on variance reduction and it significantly outperforms them when the target accuracy is low. A similar acceleration is also achieved when the functions satisfy the Polyak-Lojasiewicz condition. Empirical experiments demonstrate that SCSG outperforms stochastic gradient methods on training multi-layers neural networks in terms of both training and validation loss.

研究の動機と目的

非凸有限和最適化における確率的勾配法の収束効率の悪さという課題に対処すること。
特に低目標精度下で既存手法を上回る複雑度バウンドを達成する手法を開発すること。
滑らかさの仮定とPolyak-Lojasiewicz 条件の下での収束挙動を分析すること。
深層ニューラルネットワークの学習において、性能向上を実証的に検証すること。

提案手法

滑らかで非凸な有限和問題を想定した、確率的制御付き確率的勾配（SCSG）アルゴリズムの変種である。
勾配推定値の安定化と収束加速のため、分散低減技術を組み込む。
勾配更新における探索と活用のバランスを取るために、確率的制御メカニズムを用いる。
強い凸性を仮定しないで、成分の滑らかさのみを仮定して収束解析を実施する。
収束速度の向上を示すために、Polyak-Lojasiewicz 条件の下でも手法を分析する。
多層ニューラルネットワークを用いた実験で、訓練損失と検証損失を指標として評価を実施する。

実験結果

リサーチクエスチョン

RQ1SCSGは、非凸有限和問題において、確率的勾配降下法よりも優れた収束複雑度を達成できるか？
RQ2SCSGは、最先端の分散低減手法と比較して、収束速度と精度の点で優れているか？
RQ3SCSGは、Polyak-Lojasiewicz 条件下でも優れた性能を維持できるか？
RQ4SCSGは、深層ニューラルネットワークの学習において、訓練損失と検証損失を顕著に低減できるか？

主な発見

SCSGは、定常点に到達するための収束複雑度が $O(\min\{\epsilon^{-5/3}, \epsilon^{-1}n^{2/3}\})$ に抑えられ、確率的勾配降下法を厳密に上回る。
本手法は、最先端の分散低減手法を下回ることなく、特に低目標精度下で顕著に優れた性能を示す。
Polyak-Lojasiewicz 条件下でも、一般の滑らかさのケースと同様の加速効果を示す。
実証的結果から、SCSGは多層ニューラルネットワークにおける標準的確率的勾配法と比較して、訓練損失と検証損失の両方をより効果的に低減することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。