Skip to main content
QUICK REVIEW

[论文解读] Complexity Guarantees for Polyak Steps with Momentum

Mathieu Barré, Adrien Taylor|arXiv (Cornell University)|Feb 3, 2020
Computability, Logic, AI Algorithms参考文献 1被引用 5
一句话总结

本文提出了一种带有动量的加速梯度方法,采用Polyak步长——其中步长由已知的最优值 $f^*$ 确定——在光滑强凸优化中实现线性收敛。通过用 $f^*$ 取代对强凸性参数的依赖,该方法在无需调参的情况下实现了加速收敛速率,相较于标准方法提供了更优的理论复杂度保证。

ABSTRACT

In smooth strongly convex optimization, knowledge of the strong convexity parameter is critical for obtaining simple methods with accelerated rates. In this work, we study a class of methods, based on Polyak steps, where this knowledge is substituted by that of the optimal value, $f_*$. We first show slightly improved convergence bounds than previously known for the classical case of simple gradient descent with Polyak steps, we then derive an accelerated gradient method with Polyak steps and momentum, along with convergence guarantees.

研究动机与目标

  • 开发一种自适应优化方法,实现无需强凸性参数知识的加速收敛。
  • 用已知的最优值 $f^*$ 取代对强凸性常数的依赖,从而实现更简单且更鲁棒的实现。
  • 为基于动量的Polyak步长方法在光滑强凸设置下提供理论复杂度保证。
  • 探索将Polyak步长框架扩展至近端和复合优化问题的可行性,包括非光滑项。
  • 弥合自适应方法的实验性能与理论收敛保证之间的差距。

提出的方法

  • 提出一种基于动量的Polyak步长变体,其中步长通过已知的最优目标值 $f^*$ 计算得出。
  • 利用性能估计问题(PEP)框架——一种分析一阶方法的近期方法——推导收敛边界。
  • 在算法中引入双循环结构,内层循环用于基于 $f^*$ 估计动量参数。
  • 通过近端扩展将该方法适配至复合目标,使其可应用于Lasso和Tikhonov正则化等非光滑项。
  • 采用性能估计方法推导紧致的收敛速率,证明在光滑且强凸假设下实现线性收敛且具有加速率。
  • 在最小二乘、逻辑回归和Lasso问题上通过数值实验验证该方法,与GD、AGM及原始Polyak步长方法进行对比。

实验结果

研究问题

  • RQ1在光滑强凸优化中,是否可以实现无需强凸性参数知识的、带有动量的Polyak步长的加速收敛速率?
  • RQ2使用 $f^*$ 而非强凸性常数,对收敛速度和鲁棒性有何影响?
  • RQ3Polyak步长框架能否扩展至包含非光滑项的近端和复合优化问题?
  • RQ4所提出的动量增强型Polyak方法的理论复杂度保证是什么?
  • RQ5是否可以设计一种单循环自适应算法,其复杂度与基于重启的方案相当,同时避免外层循环的开销?

主要发现

  • 所提出的动量增强型Polyak方法实现了加速的线性收敛速率,与已知加速方法的最佳理论边界一致。
  • 该方法无需调参,仅需已知的最优值 $f^*$,因此比参数化加速方案更简单、更鲁棒。
  • 数值实验表明,该方法优于标准梯度下降和非加速Polyak步长方法,并且在无需调参的情况下与加速方法具有良好的竞争性能。
  • 如引理3所示,该方法对 $f^*$ 的误设具有鲁棒性,其收敛速率退化程度受到严格限制。
  • 成功开发并验证了该算法的近端变体,应用于Lasso和正则化逻辑回归问题,证明其在复合目标上的适用性。
  • 性能估计框架使得对方法的紧致分析成为可能,证实其在光滑且强凸假设下的加速收敛行为。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。