[论文解读] Convergence Rates of Inexact Proximal-Gradient Methods for Convex Optimization
本文证明,在梯度和邻近算子误差以适当速率减小的条件下,非精确的近端-梯度方法在凸优化中仍能保持与精确方法相同的收敛速率。它证明了基本和加速的近端-梯度算法在受控误差条件下分别实现 $O(1/k)$ 和 $O(1/k^2)$ 的收敛速率,从而能够高效求解具有高成本邻近算子的非光滑问题。
We consider the problem of optimizing the sum of a smooth convex function and a non-smooth convex function using proximal-gradient methods, where an error is present in the calculation of the gradient of the smooth term or in the proximity operator with respect to the non-smooth term. We show that both the basic proximal-gradient method and the accelerated proximal-gradient method achieve the same convergence rate as in the error-free case, provided that the errors decrease at appropriate rates.Using these rates, we perform as well as or better than a carefully chosen fixed error level on a set of structured sparsity problems.
研究动机与目标
- 分析当梯度或邻近算子计算中存在误差时,非精确近端-梯度方法的收敛行为。
- 建立在凸和强凸问题中,非精确方法可实现与精确方法相同收敛速率的条件。
- 证明受控误差衰减可使性能达到或优于结构化稀疏性问题中固定误差水平的性能。
- 为非光滑大规模优化中非精确方法的经验成功提供理论依据。
提出的方法
- 提出一种非精确近端-梯度方法,其中梯度和邻近算子计算包含有界误差 $\|e_k\|$ 和 $\varepsilon_k$。
- 采用李雅普诺夫函数方法,通过包含误差项的递推不等式来界定与最优解的距离 $\|v_k - x^*\|$。
- 利用强增长性质 $\|v_k - x^*\|^2 \leq \frac{2\delta_k}{\mu}$ 和误差衰减速率,推导出凸和强凸情况下的收敛界。
- 引入一个关键不等式(公式 21),通过几何衰减因子 $\left(1 - \sqrt{\mu/L}\right)^k$ 将误差项 $\|e_k\|$ 和 $\varepsilon_k$ 与收敛速率联系起来。
- 应用引理 1 来界定与最优性的距离,并以 $\widehat{A}_k$、$\widehat{B}_k$ 和初始误差 $\delta_0$ 表示最终的收敛速率。
- 证明当 $\|e_k\|$ 和 $\varepsilon_k$ 衰减足够快时,函数值误差 $f(x_k) - f(x^*)$ 的衰减速率与精确情况相同。
实验结果
研究问题
- RQ1当梯度或邻近算子计算中存在误差时,非精确近端-梯度方法是否能保持与精确方法相同的收敛速率?
- RQ2对于基本和加速方法,梯度和邻近误差的何种特定衰减速率足以维持 $O(1/k)$ 和 $O(1/k^2)$ 的收敛速率?
- RQ3在结构化稀疏性问题中,误差控制策略与固定误差水平在实践中相比如何?
- RQ4在凸和强凸设置下,非精确方法在何种条件下可实现与精确方法相同的理论收敛速率?
- RQ5理论误差界是否可用于指导非光滑优化中非精确近端方法的实际实现?
主要发现
- 当梯度和邻近误差以适当速率衰减时,基本非精确近端-梯度方法在凸问题中可实现 $O(1/k)$ 的收敛速率。
- 在相同的误差衰减条件下,加速的非精确近端-梯度方法可实现 $O(1/k^2)$ 的收敛速率,与精确加速方法的最优速率一致。
- 对于强凸问题,当 $\|e_k\|$ 和 $\varepsilon_k$ 的衰减速率使得误差项 $\widehat{A}_k$ 和 $\widehat{B}_k$ 有界时,收敛速率呈线性,因子为 $\left(1 - \sqrt{\mu/L}\right)^k$。
- 函数值误差满足 $f(x_k) - f(x^*) \leq \left(1 - \sqrt{\mu/L}\right)^k \left( \sqrt{2(f(x_0) - f(x^*))} + \widehat{A}_k \sqrt{2/\mu} + \sqrt{\widehat{B}_k} \right)^2$,确保其渐近速率与精确方法相同。
- 实验结果表明,在结构化稀疏性问题中,自适应误差控制优于固定误差水平,验证了理论发现。
- 分析证实,当通过衰减误差容差来管理误差时,即使对于总变差和核范数等非光滑正则化项,非精确方法的效率也可与精确方法相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。