[论文解读] On the Convergence Rate of Stochastic Mirror Descent for Nonsmooth Nonconvex Optimization
本文首次建立了非渐近收敛速率,适用于非光滑非凸优化中的随机镜像下降(SMD),证明了在无需使用小批量(mini-batch)的情况下,可达到 $Ó(1/ar{t})$ 的收敛速率至驻点。该分析适用于目标函数为相对弱凸且具有简单非光滑正则项的问题,采用在放松随机连续性假设下的Bregman散度框架。
In this paper, we investigate the non-asymptotic stationary convergence behavior of Stochastic Mirror Descent (SMD) for nonconvex optimization. We focus on a general class of nonconvex nonsmooth stochastic optimization problems, in which the objective can be decomposed into a relatively weakly convex function (possibly non-Lipschitz) and a simple non-smooth convex regularizer. We prove that SMD, without the use of mini-batch, is guaranteed to converge to a stationary point in a convergence rate of $ \mathcal{O}(1/\sqrt{t}) $. The efficiency estimate matches with existing results for stochastic subgradient method, but is evaluated under a stronger stationarity measure. Our convergence analysis applies to both the original SMD and its proximal version, as well as the deterministic variants, for solving relatively weakly convex problems.
研究动机与目标
- 分析非光滑非凸随机优化问题中随机镜像下降(SMD)的非渐近收敛行为。
- 在较弱假设下建立收敛保证,特别是避免对目标函数的Lipschitz连续性要求。
- 将收敛分析扩展至SMD的近端与非近端变体,以及确定性镜像下降。
- 证明非欧几里得设置(通过Bregman散度)相较于标准欧几里得方法可提供更强的平稳性度量。
- 表明在此类问题中,实现 $Ó(1/\sqrt{t})$ 收敛至驻点无需使用小批量采样。
提出的方法
- 分析基于一般复合问题形式:$\min_{x\in X} f(x) + r(x) = \mathbb{E}_\xi[F(x;\xi)] + r(x)$,其中 $f(x)$ 为相对弱凸函数,$r(x)$ 为简单非光滑凸正则项。
- 论文引入了 $(L,\omega(\cdot))$-随机相对连续(SRC)函数的概念,将有界梯度矩假设推广至非Lipschitz设置。
- 关键技术工具是引理4.1,其建立了涉及随机次梯度与Bregman散度的二项式型不等式,从而实现收敛界推导。
- SMD更新规则定义为:$x_{t+1} = \arg\min_{x\in X} \left\{ \langle F'(x_t,\xi_t), x \rangle + r(x) + \frac{1}{\alpha_t} D_\psi(x, x_t) \right\}$,其中 $D_\psi$ 为从1-强凸函数 $\psi$ 导出的Bregman散度。
- 通过Bregman Moreau包络与 $\Delta_{1/(2\rho)}(x)$ 度量分析收敛性,后者用于量化弱凸函数的平稳性。
- 采用常数步长 $\alpha_t = c/\sqrt{N}$,最终输出选择为前 $N$ 次迭代中使平稳性度量最小的迭代点。
实验结果
研究问题
- RQ1在不依赖小批量采样的前提下,随机镜像下降能否实现非光滑非凸问题至驻点的非渐近收敛速率?
- RQ2当目标函数仅为相对弱凸且不一定Lipschitz连续时,SMD的收敛速率是多少?
- RQ3与标准欧几里得范数相比,使用非欧几里得Bregman散度如何影响平稳性度量与收敛保证?
- RQ4该收敛分析能否扩展至满足放松连续性假设的子梯度预言机下的确定性镜像下降算法?
- RQ5在Bregman Moreau包络度量下,达到 $\epsilon$-平稳解所需的样本复杂度是多少?
主要发现
- 本文证明,SMD在非光滑非凸问题中可实现至驻点的非渐近收敛速率 $\mathcal{O}(1/\sqrt{t})$,与随机次梯度方法的最佳已知速率一致。
- 该收敛结果无需使用小批量,与先前工作每轮迭代需 $\mathcal{O}(1/\epsilon)$ 个样本形成对比。
- 该分析适用于原始SMD及其近端变体,以及确定性镜像下降算法。
- 基于Bregman Moreau包络的平稳性度量 $\Delta_{1/(2\rho)}(x)$ 提供了强于标准梯度范数度量的保证。
- 收敛界在 $(L,\omega(\cdot))$-SRC 条件下推导得出,该条件将有界随机次梯度假设推广至非Lipschitz函数。
- 对于满足SRC条件的子梯度预言机,确定性镜像下降达到 $\epsilon$-平稳性所需的迭代次数为 $\mathcal{O}(1/\epsilon^2)$,这是该设定下确定性MD的首个此类非渐近结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。