Skip to main content
QUICK REVIEW

[论文解读] A Randomized Block Proximal Variable Sample-size Stochastic Gradient Method for Composite Nonconvex Stochastic Optimization

Jinlong Lei, Uday V. Shanbhag|arXiv (Cornell University)|Aug 7, 2018
Sparse and Compressive Sensing Techniques参考文献 34被引用 1
一句话总结

本文提出了一种用于复合非凸随机优化的随机化块近端可变样本大小随机梯度(VSSG)方法,其中各块通过逐步增加的梯度批量大小顺序更新。该方法建立了梯度映射的$Ó(1/K)$收敛性,以及达到$É$-驻立点的$Ó(1/ heta)$迭代复杂度和$Ó(1/ heta^2)$Oracle复杂度,并在$µ$-近端Polyak-Éojasiewicz条件下实现几何收敛。

ABSTRACT

This paper considers the minimization of a sum of an expectation-valued smooth nonconvex function and a nonsmooth block-separable convex regularizer. By combining a randomized block-coordinate descent method with a proximal variable sample-size stochastic gradient (VSSG) method, we propose a randomized block proximal VSSG algorithm. In each iteration, a single block is randomly chosen to updates its estimates by {a VSSG scheme} with an increasing batch of sampled gradients, while the remaining blocks are kept invariant. By appropriately chosen batch sizes, we prove that every limit point for almost every sample path is a stationary point when blocks are chosen either randomly or cyclically. We further show that the ergodic mean-squared error of the gradient mapping {diminishes at the rate of $\mathcal{O}(1/K) $ where $K$denotes the iteration index} and establish that the iteration and oracle complexity to obtain an $\epsilon$-stationary point are $\mathcal{O}(1/\epsilon )$ and $\mathcal{O}(1/\epsilon^2)$, respectively. Furthermore, under a $ {\mu}$-proximal Polyak-{\L}ojasiewicz condition with the batch size increasing at a suitable geometric rate, we prove that the suboptimality diminishes at a {\em geometric} rate, the {\em optimal} deterministic rate. In addition, if $L_{ m ave}$ denotes the average of block-specific Lipschitz constants, the iteration and oracle complexity to obtain an $\epsilon$-optimal solution are $\mathcal{O}( {(L_{ m ave}/\mu)}\ln(1/\epsilon))$ and $\mathcal{O}\left( (1/\epsilon)^{1+c} ight)$, respectively, {matching} the deterministic result. When $n=1$, we obtainthe {\em optimal} ed{oracle complexity bound} $\mathcal{O}(1/\epsilon) $ while $c>0$ when $n\geq 2$ represents the positive cost of multiple blocks. Finally, preliminary numerical experiments support our theoretical findings.

研究动机与目标

  • 解决包含光滑非凸期望函数和块可分凸正则项的复合非凸随机优化问题。
  • 开发一种随机一阶方法,实现最优收敛速率,同时处理可变样本大小和块更新。
  • 在随机或循环块选择下,建立对极限点和均方误差衰减的收敛保证。
  • 分析在不同条件下达到$É$-驻立点和$É$-最优解的迭代和Oracle复杂度。

提出的方法

  • 将随机化块坐标下降框架与近端可变样本大小随机梯度(VSSG)方案相结合。
  • 在每次迭代中,随机选择一个块,并使用具有递增批量大小的采样梯度的VSSG步骤进行更新。
  • 在每次更新期间,其余块保持固定,从而实现具有递减方差的块内优化。
  • 批量大小呈几何增长,以确保收敛性,并在$µ$-近端Polyak-Éojasiewicz条件下实现最优速率。
  • 该方法使用近端算子处理非光滑凸正则项,确保块内更新在计算上可行。
  • 通过梯度映射和遍历平均分析收敛性,推导出均方误差和次优性理论界。

实验结果

研究问题

  • RQ1随机化块近端VSSG方法能否实现梯度映射的均方误差的$Ó(1/K)$收敛?
  • RQ2该方法达到$É$-驻立点的迭代和Oracle复杂度是多少?
  • RQ3在$µ$-近端Polyak-Éojasiewicz条件下是否发生几何收敛?若是,收敛速率如何?
  • RQ4复杂度如何随块数$n \geq 2$变化?多块带来的成本是多少?
  • RQ5当$n=1$时,该方法能否实现最优的$Ó(1/\epsilon)$Oracle复杂度?对于$n\geq 2$,其复杂度如何扩展?

主要发现

  • 梯度映射的遍历平均均方误差以$Ó(1/K)$的速率衰减,其中$K$为迭代索引。
  • 达到$É$-驻立点的迭代复杂度为$Ó(1/\epsilon)$,Oracle复杂度为$Ó(1/\epsilon^2)$。
  • 在$µ$-近端Polyak-Éojasiewicz条件下,且批量大小几何增长时,次优性以几何速率衰减,与最优确定性速率一致。
  • 当$n=1$时,Oracle复杂度达到最优的$Ó(1/\epsilon)$界,而$n\geq 2$时$c>0$反映了多块的代价。
  • 对于$É$-最优解,迭代复杂度为$Ó\left(\frac{L_{\text{m ave}}}{\mu}\ln(1/\epsilon)\right)$,Oracle复杂度为$Ó\left(\left(\frac{1}{\epsilon}\right)^{1+c}\right)$,与确定性结果一致。
  • 初步的数值实验支持理论收敛速率和复杂度界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。