Skip to main content
QUICK REVIEW

[论文解读] Linear Convergence of the Primal-Dual Gradient Method for Convex-Concave Saddle Point Problems without Strong Convexity

Simon S. Du, Wei Hu|arXiv (Cornell University)|Feb 5, 2018
Advanced Optimization Algorithms Research被引用 50
一句话总结

作者证明了简单的原-对偶梯度方法在凸-凹鞍点问题上线性收敛,即使原问题函数不强凸,前提是耦合矩阵 A 具有满列秩。

ABSTRACT

We consider the convex-concave saddle point problem $\\min_{x}\\max_{y} f(x)+y^\ op A x-g(y)$ where $f$ is smooth and convex and $g$ is smooth and strongly convex. We prove that if the coupling matrix $A$ has full column rank, the vanilla primal-dual gradient method can achieve linear convergence even if $f$ is not strongly convex. Our result generalizes previous work which either requires $f$ and $g$ to be quadratic functions or requires proximal mappings for both $f$ and $g$. We adopt a novel analysis technique that in each iteration uses a "ghost" update as a reference, and show that the iterates in the primal-dual gradient method converge to this "ghost" sequence. Using the same technique we further give an analysis for the primal-dual stochastic variance reduced gradient (SVRG) method for convex-concave saddle point problems with a finite-sum structure.

研究动机与目标

  • 在大规模场景下,动用一阶方法解决凸-凹鞍点问题的动机。
  • 在耦合 A 满列秩的前提下,展示即使原问题不强凸也能实现线性收敛。
  • 提供一种使用鬼影参考序列的新分析技巧来证明收敛。
  • 将分析扩展到原-对偶随机方差减少梯度(SVRG)方法,用于有限和结构。

提出的方法

  • 研究鞍点问题 min_x max_y f(x) + y^T A x - g(y),其中 f 平滑且凸,g 平滑且强凸。
  • 使用算法1(原-对偶梯度更新),在特定参数选取下建立线性收敛。
  • 引入一个对应 primal 问题梯度下降的鬼影序列作为参考来分析收敛。
  • 定义势函数 P_t = λ a_t + b_t,其中 a_t = ||x_t - x*||,b_t = ||y_t - ∇g^*(A x_t)||,并显示几何衰减。
  • 将框架扩展到面向有限和问题的原-对偶 SVRG 方法,并证明复杂度为 O((n + κ)d log(1/ε)) 量级。
  • 给出推论,细化迭代复杂度:实现 ε-精度的 O*(log(P_0/ε))。

实验结果

研究问题

  • RQ1当 f 不是强凸且 g 是强凸且 A 具有满列秩时,简单的原-对偶梯度方法是否能实现线性收敛?
  • RQ2分析如何扩展到用于有限和鞍点问题的随机方差减少梯度(SVRG)变体?
  • RQ3光滑常数和 A 的条件数在确保线性收敛以及确定步长方面起到什么作用?

主要发现

  • 在温和的光滑及凸性假设下(f 为凸且 ρ-光滑;g 为 α-强凸且 β-光滑),且 rank(A) = d1,原-对偶梯度方法线性收敛到 (x*, y*)。
  • 一种新颖的鬼影参考分析显示原迭代向由 primal 问题的梯度下降生成的鬼影序列收敛,从而在没有原问题强凸性的情况下实现线性收敛。
  • 对于有限和问题,原-对偶 SVRG 方法达到 O((n + κ)d log(1/ε)) 的迭代复杂度,匹配对光滑强凸目标函数的标准 SVRG 速率。
  • 实证结果证实原-对偶梯度法及其 SVRG 变体的线性收敛,SVRG 在高条件数下提供更快的速率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。