[论文解读] Proximal Gradient Descent-Ascent: Variable Convergence under K{\L} Geometry
本文在Kurdyka-Łojasiewicz(KŁ)几何框架下,首次为非凸-强凹极小极大优化中的近端梯度下降-上升(GDA)提供了变量收敛性保证。通过引入一种新颖的李雅普诺夫函数,该函数单调递减并引导迭代序列收敛至临界点,作者证明了GDA的收敛速率从次线性到有限步收敛,具体取决于KŁ参数$\theta$。该结果解决了非凸极小极大设置中变量收敛性这一基础性开放问题。
The gradient descent-ascent (GDA) algorithm has been widely applied to solve minimax optimization problems. In order to achieve convergent policy parameters for minimax optimization, it is important that GDA generates convergent variable sequences rather than convergent sequences of function values or gradient norms. However, the variable convergence of GDA has been proved only under convexity geometries, and there lacks understanding for general nonconvex minimax optimization. This paper fills such a gap by studying the convergence of a more general proximal-GDA for regularized nonconvex-strongly-concave minimax optimization. Specifically, we show that proximal-GDA admits a novel Lyapunov function, which monotonically decreases in the minimax optimization process and drives the variable sequence to a critical point. By leveraging this Lyapunov function and the K{\L} geometry that parameterizes the local geometries of general nonconvex functions, we formally establish the variable convergence of proximal-GDA to a critical point $x^*$, i.e., $x_t o x^*, y_t o y^*(x^*)$. Furthermore, over the full spectrum of the K{\L}-parameterized geometry, we show that proximal-GDA achieves different types of convergence rates ranging from sublinear convergence up to finite-step convergence, depending on the geometry associated with the K{\L} parameter. This is the first theoretical result on the variable convergence for nonconvex minimax optimization.
研究动机与目标
- 为解决在非凸极小极大优化中GDA变量收敛性的理论理解不足问题,特别是超越凸-凹或强凸-强凹设置的情形。
- 在KŁ几何框架下,建立近端-GDA在非凸-强凹极小极大问题中收敛至临界点的变量收敛性。
- 刻画近端-GDA在KŁ参数全范围内(从次线性到有限步)的收敛速率,揭示局部几何与收敛速度之间的联系。
- 构建一种新的李雅普诺夫函数,使其单调递减并确保变量序列$x_t, y_t$收敛至临界点。
提出的方法
- 提出一种新颖的李雅普诺夫函数$H(z_t)$,其沿近端-GDA迭代序列单调递减,从而确保收敛至临界点。
- 利用Kurdyka-Łojasiewicz(KŁ)几何来参数化局部非凸几何结构,推广强凸性和PŁ条件。
- 推导涉及李雅普诺夫函数与变量差值$A_t = \|x_t - x^*\|$的递推不等式,进而实现收敛速率分析。
- 通过错位求和(telescope)递推不等式,以有界累积变量误差$\sum_{s=t}^\infty A_s$控制$\|x_t - x^*\|$的收敛速率。
- 基于KŁ参数$\theta \in (0,1)$分为三种情况分析:$\theta \in (0, \frac{1}{2})$,$\theta = \frac{1}{2}$,以及$\theta \in (\frac{1}{2}, 1)$,分别得到不同的收敛速率。
- 利用最优响应映射$y^*(x)$的利普希茨连续性及一系列不等式链,将$\|y_t - y^*(x^*)\|$以$\|x_t - x^*\|$的形式有界。
实验结果
研究问题
- RQ1GDA是否在非凸极小极大优化中实现变量收敛?若然,收敛至何点?
- RQ2由KŁ参数$\theta$所刻画的目标函数局部几何结构,如何影响GDA的收敛速率?
- RQ3能否构造一种李雅普诺夫函数,以确保在非凸-强凹设置下单调递减并实现变量收敛?
- RQ4GDA在KŁ参数全范围内(从次线性到有限步)的收敛速率如何?
主要发现
- 在KŁ几何下,近端-GDA在非凸-强凹极小极大问题中收敛至临界点$x^*, y^*(x^*)$,首次建立了非凸极小极大优化中的变量收敛性结果。
- 当$\theta \in (\frac{1}{2}, 1)$时,$\|x_t - x^*\|$的收敛速率为$O\left(\exp\left(-\left(\frac{1}{2(1-\theta)}\right)^{t-t_1}\right)\right)$,表明为有限步收敛。
- 当$\theta = \frac{1}{2}$时,收敛速率为线性:$O\left(\left(\min\left(2, 1 + \frac{1}{2Mc^2}\right)\right)^{-t/2}\right)$。
- 当$\theta \in (0, \frac{1}{2})$时,收敛速率为次线性:$O\left((t - t_0)^{-\frac{1}{2(1-\theta)}}\right)$。
- 由于$y^*(x)$的利普希茨连续性,$\|y_t - y^*(x^*)\|$的收敛性与$\|x_t - x^*\|$保持一致。
- 所提出的李雅普诺夫函数$H(z_t)$确保单调递减,并驱动变量序列收敛至临界点,从而支持收敛速率分析。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。