Skip to main content
QUICK REVIEW

[论文解读] An accelerated algorithm for minimizing convex compositions

Dmitriy Drusvyatskiy, Courtney Kempton|arXiv (Cornell University)|Apr 30, 2016
Sparse and Compressive Sensing Techniques参考文献 15被引用 2
一句话总结

该论文提出了一种加速算法,用于通过结合光滑化、邻近-线性方法和快速梯度方案来最小化凸复合函数,利用一阶方法近似求解子问题时达到 $\widetilde{\mathcal{O}}(\varepsilon^{-3})$ 的复杂度,并将方法扩展至复合函数平均值问题,同时引入一种惯性变体,在凸性条件下可自动加速。

ABSTRACT

We consider global efficiency of algorithms for minimizing a sum of a convex function and a composition of a Lipschitz convex function with a smooth map. The basic algorithm we rely on is the prox-linear method, which in each iteration solves a regularized subproblem formed by linearizing the smooth map. When the subproblems are solved exactly, the method has efficiency $\mathcal{O}(\varepsilon^{-2})$, akin to gradient descent for smooth minimization. We show that when the subproblems can only be solved by first-order methods, a simple combination of smoothing, the prox-linear method, and a fast-gradient scheme yields an algorithm with complexity $\widetilde{\mathcal{O}}(\varepsilon^{-3})$. The technique readily extends to minimizing an average of $m$ composite functions, with complexity $\widetilde{\mathcal{O}}(m/\varepsilon^{2}+\sqrt{m}/\varepsilon^{3})$ in expectation. We round off the paper with an inertial prox-linear method that automatically accelerates in presence of convexity.

研究动机与目标

  • 开发一种高效的首阶算法,用于最小化一个凸函数与一个利普希茨连续凸函数复合光滑映射的和。
  • 当邻近-线性方法中的子问题通过近似而非精确求解时,提升全局收敛效率。
  • 将该方法扩展至最小化 $m$ 个复合函数的平均值,实现在期望意义下的改进复杂度。
  • 提出一种邻近-线性方法的惯性变体,可在凸性存在时自动加速。

提出的方法

  • 该方法将光滑化技术与邻近-线性框架相结合,以处理目标函数中的非光滑分量。
  • 采用快速梯度方案,在使用一阶方法近似求解子问题时加速收敛。
  • 该算法在每次迭代中对光滑映射进行线性化,并求解一个正则化子问题以确保全局收敛。
  • 对于复合函数平均值情形,该方法使用随机逼近技术以降低每次迭代的复杂度。
  • 引入一种惯性邻近-线性方法,结合类似动量的项,自适应于凸结构并提升收敛速率。
  • 理论分析在标准假设下建立了复杂度界,包括利普希茨连续性和凸性。

实验结果

研究问题

  • RQ1当子问题通过一阶方法近似求解时,邻近-线性方法是否仍能保持全局效率?
  • RQ2当子问题通过一阶技术求解时,最小化凸复合函数的最优复杂度是多少?
  • RQ3当最小化 $m$ 个复合函数的平均值时,复杂度如何随 $m$ 变化?
  • RQ4是否可将类似动量的项引入邻近-线性方法,以在凸性条件下实现自动加速?

主要发现

  • 所提出的算法在最小化单个凸复合函数时达到 $\widetilde{\mathcal{O}}(\varepsilon^{-3})$ 的复杂度,优于子问题近似求解时的标准 $\mathcal{O}(\varepsilon^{-2})$。
  • 在最小化 $m$ 个复合函数的平均值时,期望复杂度为 $\widetilde{\mathcal{O}}(m/\varepsilon^{2} + \sqrt{m}/\varepsilon^{3})$,显示出对 $m$ 更优的依赖关系。
  • 惯性邻近-线性方法在凸性存在时可实现自动加速,且无需事先知晓强凸性参数。
  • 光滑化、邻近-线性更新与快速梯度方案的结合,使得非光滑复合问题能够高效求解,并具备理论保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。