QUICK REVIEW

[論文レビュー] Analysis of nonsmooth stochastic approximation: the differential inclusion approach

Szymon Majewski, Błażej Miasojedow|arXiv (Cornell University)|May 4, 2018

Stochastic Gradient Optimization Techniques参考文献 20被引用数 24

ひとこと要約

本稿は、非滑らか確率的近似アルゴリズムを分析するための微分包含アプローチを開発し、古典的なODE法を非凸・非滑らか設定に拡張する。目的関数が局所リプシッツ連続ではあるが微分可能でない一般の条件下で、確率的部分勾配法およびプロキシマル勾配法の収束を確立する。制限動的を微分包含としてモデル化することで、非滑らかな目的関数を伴う深層学習や高次元スパース推定問題の解析が可能になる。

ABSTRACT

In this paper we address the convergence of stochastic approximation when the functions to be minimized are not convex and nonsmooth. We show that the "mean-limit" approach to the convergence which leads, for smooth problems, to the ODE approach can be adapted to the non-smooth case. The limiting dynamical system may be shown to be, under appropriate assumption, a differential inclusion. Our results expand earlier works in this direction by Benaim et al. (2005) and provide a general framework for proving convergence for unconstrained and constrained stochastic approximation problems, with either explicit or implicit updates. In particular, our results allow us to establish the convergence of stochastic subgradient and proximal stochastic gradient descent algorithms arising in a large class of deep learning and high-dimensional statistical inference with sparsity inducing penalties.

研究の動機と目的

確率的近似の古典的ODE法を非滑らか・非凸最適化問題に拡張すること。
目的関数が局所リプシッツ連続ではあるが微分可能でない設定において、確率的部分勾配法およびプロキシマル勾配法の収束を確立すること。
明示的および暗黙的更新を含む、非制約および制約付き確率的近似の一般枠組みを提供すること。
平均極限動的を活用して、マルコフ的依存性を含む非i.i.d.ノイズ過程を扱うこと。

提案手法

確率的近似の極限動的を微分包含としてモデル化：$ \dot{x}(t) \in F(x(t)) $、ここで $ F $ はクラーク一般化勾配を表す多価写像である。
滑らか確率的近似における平均極限アプローチを非滑らかケースに適応し、ODEを微分包含に置き換える。
Empirical measures の弱収束および凸結合部分列を用いて、一般化勾配の多価性を扱う。
微分包含および $ L_1 $ 空間における弱コンact性の結果を応用して、反復の収束を証明する。
一般化勾配写像の上半連続性および凸・閉値性を用いて収束を確立する。
Dunford-Pettisの定理およびMazurの補題を用いて、$ L_1 $ 内の弱収束列から almost everywhere 収束部分列を抽出する。

実験結果

リサーチクエスチョン

RQ1古典的なODE法を非滑らか・非凸問題に拡張することは可能か？
RQ2目的関数が局所リプシッツ連続ではあるが微分可能でない場合、確率的部分勾配法がどのような条件下で収束するか？
RQ3非滑らかな目的関数を伴う確率的近似の極限動的は、常微分方程式を超えてどのように特徴付けられるか？
RQ4このフレームワークは、非制約および制約付き設定における明示的および暗黙的更新ルールを両方扱えるか？
RQ5スパース性誘導ペナルティを伴う確率的プロキシマル勾配法の収束を保証する条件は何か？

主な発見

非滑らか確率的近似の極限動的は、$ \dot{x}(t) \in F(x(t)) $、ここで $ F(x) = \overline{\partial}f(x) $、すなわちクラーク一般化勾配として特徴付けられる。
目的関数の局所リプシッツ連続性および適切なステップサイズ則の下で、確率的部分勾配アルゴリズムの収束が弱い条件下で確立される。
このフレームワークは非制約および制約付き問題に適用可能であり、暗黙的更新を含む。
収束結果は、非滑らかな正則化子を伴う高次元スパース推定や深層学習に用いられる確率的プロキシマル勾配法へも拡張可能である。
ノイズ過程 $ \xi_k $ がi.i.i.d.でない場合、例えばマルコフ的依存性や従属サンプリング設定下でも解析が成立する。
反復の凸結合部分列が、微分包含の解へ almost everywhere 収束する。これにより、収束解析のロバスト性が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。