[论文解读] An optimal randomized incremental gradient method
该论文提出了一种随机原始-对偶梯度(RPDG)方法,用于有限和凸优化问题,每轮迭代仅计算一次梯度,相较于确定性方法,在期望和高概率下均实现了更少 ${\cal O}(\sqrt{m})$ 次梯度评估,达到了最优复杂度界。该方法通过为随机增量梯度方法建立新的下界复杂度,证明了其最优性。
In this paper, we consider a class of finite-sum convex optimization problems whose objective function is given by the summation of $m$ ($\ge 1$) smooth components together with some other relatively simple terms. We first introduce a deterministic primal-dual gradient (PDG) method that can achieve the optimal black-box iteration complexity for solving these composite optimization problems using a primal-dual termination criterion. Our major contribution is to develop a randomized primal-dual gradient (RPDG) method, which needs to compute the gradient of only one randomly selected smooth component at each iteration, but can possibly achieve better complexity than PDG in terms of the total number of gradient evaluations. More specifically, we show that the total number of gradient evaluations performed by RPDG can be ${\cal O} (\sqrt{m})$ times smaller, both in expectation and with high probability, than those performed by deterministic optimal first-order methods under favorable situations. We also show that the complexity of the RPDG method is not improvable by developing a new lower complexity bound for a general class of randomized methods for solving large-scale finite-sum convex optimization problems. Moreover, through the development of PDG and RPDG, we introduce a novel game-theoretic interpretation for these optimal methods for convex optimization.
研究动机与目标
- 开发一种随机增量梯度方法,实现具有光滑和复合项的有限和凸优化问题的最优迭代复杂度。
- 以原始最优性间隙和迭代点到解的距离为指标,建立随机原始-对偶梯度(RPDG)方法的复杂度界。
- 通过推导一类通用随机方法的新下界复杂度,证明 RPDG 方法的复杂度不可进一步改进。
- 通过构建原始-对偶梯度(PDG)和 RPDG 框架,为最优一阶方法提供博弈论解释。
提出的方法
- 提出一种确定性原始-对偶梯度(PDG)方法,利用原始-对偶终止准则实现最优黑箱迭代复杂度。
- 设计一种随机原始-对偶梯度(RPDG)方法,每轮迭代仅对一个随机选择的光滑分量计算梯度。
- 采用原始-对偶最优性间隙和迭代点到最优解的距离作为收敛准则,对遍历迭代均值的收敛性进行分析。
- 使用模为 1 的强凸正则项 $\omega(x)$,以确保当 $\mu > 0$ 时目标函数具有强凸性。
- 推导出在期望和高概率下的复杂度界,表明在有利条件下,与确定性最优方法相比,总梯度评估次数可实现 ${\cal O}(\sqrt{m})$ 的改进。
- 为随机增量梯度方法建立新的下界复杂度,证明 RPDG 方法的复杂度在给定问题假设下不可进一步改进。
实验结果
研究问题
- RQ1随机增量梯度方法能否在有限和凸优化问题中,实现优于确定性最优一阶方法的梯度评估复杂度?
- RQ2所提出的随机方法的复杂度是否最优?能否通过下界形式正式证明其最优性?
- RQ3最优一阶方法的博弈论解释如何从原始-对偶框架中自然浮现?
- RQ4在大规模有限和问题中,随机分量选择对收敛速率和梯度评估次数有何影响?
主要发现
- RPDG 方法在期望和高概率下,相较于确定性最优一阶方法,总梯度评估次数实现了 ${\cal O}(\sqrt{m})$ 的减少。
- RPDG 的总梯度评估次数被限制在 ${\cal O}\left\{\sqrt{m}\sqrt{\frac{L}{\mu}}\log\frac{1}{\epsilon}\right\}$,远优于确定性方法的 ${\cal O}\left\{m\sqrt{\frac{L}{\mu}}\log\frac{1}{\epsilon}\right\}$ 边界。
- 为随机增量梯度方法推导出新的下界复杂度,证明在给定问题假设下 RPDG 复杂度不可进一步改进。
- 收敛性分析同时针对遍历迭代均值 $\bar{x}^k$ 和迭代点 $x^k$ 展开,给出了 $\mathbb{E}[\Psi(\bar{x}^k) - \Psi^*]$ 和 $\mathbb{E}[\|x^k - x^*\|^2]$ 的界。
- 该方法在迭代复杂度和梯度评估次数方面均被证明为最优,即使在问题维度 $n$ 较大时亦成立。
- 讨论了向非强凸、非光滑及无界问题的扩展,但主要结果集中于具有光滑分量的强凸情形。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。