Skip to main content
QUICK REVIEW

[论文解读] Analysis of nonsmooth stochastic approximation: the differential inclusion approach

Szymon Majewski, Błażej Miasojedow|arXiv (Cornell University)|May 4, 2018
Stochastic Gradient Optimization Techniques参考文献 20被引用 24
一句话总结

本文提出了一种微分包含方法,用于分析非光滑随机逼近算法,将经典的常微分方程(ODE)方法扩展至非凸、非光滑设置。通过将极限动力学建模为微分包含,该研究在一般条件下建立了随机次梯度法与近端梯度法的收敛性,从而实现了对具有非光滑目标函数的深度学习和高维稀疏推断问题的分析。

ABSTRACT

In this paper we address the convergence of stochastic approximation when the functions to be minimized are not convex and nonsmooth. We show that the "mean-limit" approach to the convergence which leads, for smooth problems, to the ODE approach can be adapted to the non-smooth case. The limiting dynamical system may be shown to be, under appropriate assumption, a differential inclusion. Our results expand earlier works in this direction by Benaim et al. (2005) and provide a general framework for proving convergence for unconstrained and constrained stochastic approximation problems, with either explicit or implicit updates. In particular, our results allow us to establish the convergence of stochastic subgradient and proximal stochastic gradient descent algorithms arising in a large class of deep learning and high-dimensional statistical inference with sparsity inducing penalties.

研究动机与目标

  • 将经典的随机逼近 ODE 方法扩展至非光滑、非凸优化问题。
  • 在目标函数局部利普希茨连续但不可微的条件下,建立随机次梯度法与近端梯度法的收敛性。
  • 为具有显式与隐式更新规则的无约束与有约束随机逼近问题提供一个通用框架。
  • 通过利用均值极限动力学,处理非独立同分布(i.i.d.)的噪声过程,包括马尔可夫依赖关系。

提出的方法

  • 将随机逼近的极限动力学建模为微分包含:$ \dot{x}(t) \in F(x(t)) $,其中 $ F $ 是表示 Clarke 广义梯度的集值映射。
  • 将光滑随机逼近中的均值极限方法适配至非光滑情形,以微分包含替代常微分方程。
  • 利用经验测度的弱收敛性与凸组合子序列,处理广义梯度的集值性质。
  • 应用微分包含理论及 $ L_1 $ 空间中的弱紧性结果,证明迭代序列的收敛性。
  • 通过广义梯度映射的上半连续性与凸闭值性质,建立收敛性。
  • 利用 Dunford-Pettis 定理与 Mazur 引理,从 $ L_1 $ 中弱收敛序列中提取几乎处处收敛的子序列。

实验结果

研究问题

  • RQ1经典的随机逼近 ODE 方法能否被扩展至非光滑、非凸问题?
  • RQ2当目标函数局部利普希茨连续但不可微时,随机次梯度法在何种条件下收敛?
  • RQ3如何表征具有非光滑目标函数的随机逼近的极限动力学,超越常微分方程的范畴?
  • RQ4该框架能否同时处理无约束与有约束设置下的显式与隐式更新规则?
  • RQ5在使用稀疏诱导惩罚项时,何种条件可确保随机近端梯度法的收敛性?

主要发现

  • 非光滑随机逼近的极限动力学由微分包含 $ \dot{x}(t) \in F(x(t)) $ 描述,其中 $ F(x) = \overline{\partial}f(x) $,即 Clarke 广义梯度。
  • 在较弱条件下,如目标函数的局部利普希茨连续性与适当的步长规则,建立了随机次梯度算法的收敛性。
  • 该框架适用于无约束与有约束问题,包括采用隐式更新的情形。
  • 收敛结果可推广至高维稀疏估计与使用非光滑正则化项的深度学习中所用的随机近端梯度方法。
  • 即使噪声过程 $ \xi_k $ 非 i.i.d.(如马尔可夫过程或依赖采样情形),分析依然成立。
  • 迭代序列的一个凸组合子序列几乎处处收敛至微分包含的解,确保了收敛性分析的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。