[论文解读] A globally convergent algorithm for nonconvex optimization based on block coordinate update
本文提出了一种块近似线性(BPL)算法,用于在Kurdyka-Łojasiewicz(KL)条件下实现非凸优化的全局收敛至临界点。通过使用外推法逐个更新一个块,并允许循环或随机的更新顺序,该方法即使在非凸、非光滑问题下也能确保整个序列的收敛性,并建立了渐近收敛速率。
Nonconvex optimization problems arise in many areas of computational science and engineering and are (approximately) solved by a variety of algorithms. Existing algorithms usually only have local convergence or subsequence convergence of their iterates. We propose an algorithm for a generic nonconvex optimization formulation, establish the convergence of its whole iterate sequence to a critical point along with a rate of convergence, and numerically demonstrate its efficiency. Specially, we consider the problem of minimizing a nonconvex objective function. Its variables can be treated as one block or be partitioned into multiple disjoint blocks. It is assumed that each non-differentiable component of the objective function or each constraint applies to one block of variables. The differentiable components of the objective function, however, can apply to one or multiple blocks of variables together. Our algorithm updates one block of variables at time by minimizing a certain prox-linear surrogate. The order of update can be either deterministic or randomly shuffled in each round. We obtain the convergence of the whole iterate sequence under fairly loose conditions including, in particular, the Kurdyka-Łojasiewicz (KL) condition, which is satisfied by a broad class of nonconvex/nonsmooth applications. We apply our convergence result to the coordinate descent method for non-convex regularized linear regression and also a modified rank-one residue iteration method for nonnegative matrix factorization. We show that both the methods have global convergence. Numerically, we test our algorithm on nonnegative matrix and tensor factorization problems, with random shuffling enable to avoid local solutions.
研究动机与目标
- 为了解决现有非凸优化算法缺乏全局收敛保证的问题,这些算法通常仅能保证目标函数或子序列收敛。
- 建立非凸、非光滑优化问题中整个迭代序列收敛至临界点的全局收敛性。
- 开发一种在最小假设条件下有效的算法,特别是基于Kurdyka-Łojasiewicz(KL)不等式,该不等式适用于一大类非凸和非光滑函数。
- 在实际问题中展示该方法的高效性与鲁棒性,如非凸正则化回归和非负矩阵分解。
提出的方法
- 该算法采用块坐标更新策略,每次迭代仅更新一个变量块,使用目标函数的近似线性代理模型。
- 每次块更新通过最小化可微部分的一阶近似加上非光滑正则项,并引入二次近端项。
- 引入外推步骤以加速收敛,类似于Nesterov型加速方法。
- 更新顺序可以是循环的或每轮周期内随机打乱,只要每个块在固定次数的迭代内至少被更新一次,即可保证收敛。
- 该方法在KL条件下进行分析,该条件可确保整个序列全局收敛至临界点。
- 该方法被应用于非凸正则化线性回归以及非负矩阵分解中的改进秩一残差迭代。
实验结果
研究问题
- RQ1块坐标下降方法能否在非凸优化问题中实现整个序列的全局收敛至临界点?
- RQ2在标准工具(如凸性或Fejér单调性)不适用时,整个迭代序列在何种条件下可实现全局收敛?
- RQ3外推法与随机打乱是否能改善收敛行为,并在实践中避免陷入较差的局部解?
- RQ4所提出的算法能否应用于特定非凸问题(如非凸稀疏回归和非负矩阵分解)并证明其全局收敛性?
主要发现
- 所提出的块近似线性(BPL)算法在Kurdyka-Łojasiewicz(KL)条件下可实现整个序列收敛至临界点,而该条件适用于一大类非凸和非光滑函数。
- 只要每个块在固定次数的迭代内至少被更新一次,无论更新顺序是循环还是随机打乱,算法都能保证收敛。
- 该方法建立了渐近收敛速率,收敛速率取决于KL指数和问题的局部几何结构。
- 数值实验表明,随机打乱显著提高了在非负矩阵与张量分解问题中避免低质量局部解的概率。
- 已证明该方法在非凸正则化线性回归问题中具有全局收敛性,其中正则化项为 $\boldsymbol{\text{ℓ}}_p$ 伪范数($0 \leq p < 1$)。
- 该方法还确保了在非负矩阵分解中改进的秩一残差迭代的全局收敛性,该问题此前缺乏此类理论保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。