[論文レビュー] A globally convergent algorithm for nonconvex optimization based on block coordinate update
本稿では、Kurdyka-Łojasiewicz (KL) 条件の下で、非凸最適化問題に対して全列の収束を保証するブロックプロキシ線形(BPL)アルゴリズムを提案する。1つのブロックを順次更新し、外挿を用いたプロキシ線形サロゲートモデルを用いることで、非凸的かつ非滑らかな問題に対しても、全列収束を保証する。また、漸近的収束速度が確立されている。
Nonconvex optimization problems arise in many areas of computational science and engineering and are (approximately) solved by a variety of algorithms. Existing algorithms usually only have local convergence or subsequence convergence of their iterates. We propose an algorithm for a generic nonconvex optimization formulation, establish the convergence of its whole iterate sequence to a critical point along with a rate of convergence, and numerically demonstrate its efficiency. Specially, we consider the problem of minimizing a nonconvex objective function. Its variables can be treated as one block or be partitioned into multiple disjoint blocks. It is assumed that each non-differentiable component of the objective function or each constraint applies to one block of variables. The differentiable components of the objective function, however, can apply to one or multiple blocks of variables together. Our algorithm updates one block of variables at time by minimizing a certain prox-linear surrogate. The order of update can be either deterministic or randomly shuffled in each round. We obtain the convergence of the whole iterate sequence under fairly loose conditions including, in particular, the Kurdyka-Łojasiewicz (KL) condition, which is satisfied by a broad class of nonconvex/nonsmooth applications. We apply our convergence result to the coordinate descent method for non-convex regularized linear regression and also a modified rank-one residue iteration method for nonnegative matrix factorization. We show that both the methods have global convergence. Numerically, we test our algorithm on nonnegative matrix and tensor factorization problems, with random shuffling enable to avoid local solutions.
研究の動機と目的
- 既存の非凸最適化アルゴリズムには、通常は目的関数値や部分列の収束しか保証されないため、そのようなグローバル収束保証の欠如に対処すること。
- 非凸的かつ非滑らかな最適化問題に対して、反復列全体が臨界点に収束することを確立すること。
- 特に、広範な非凸的・非滑らかな関数に成立する Kurdyka-Łojasiewicz (KL) 不等式を前提とした、最小限の仮定の下で動作するアルゴリズムを開発すること。
- 非凸正則化回帰や非負行列因子分解といった実用的問題における、本手法の効率性と頑健性を示すこと。
提案手法
- アルゴリズムはブロック座標更新を用い、各反復で1つの変数ブロックのみを更新する。更新には、目的関数のプロキシ線形サロゲートモデルが用いられる。
- 各ブロック更新では、微分可能部の一次近似と正則化された非滑らか部の和に、二次のプロキシマル項を加えたものを最小化する。
- 収束の加速のため、Nesterov型加速と類似した外挿ステップを組み込む。
- 更新順序はサイクル的でも、各サイクルでランダムにシャッフルしてもよい。各ブロックが固定回数以内に少なくとも1回は更新されれば、収束が保証される。
- KL 条件の下で解析され、全列が臨界点にグローバルに収束することが保証される。
- 本手法は、非凸正則化線形回帰および非負行列因子分解のための修正されたランク1残差反復に適用されている。
実験結果
リサーチクエスチョン
- RQ1ブロック座標降下法は、非凸最適化問題に対して、反復列全体が臨界点にグローバルに収束できるか?
- RQ2標準的なツール(凸性や Fejér 単調性)が適用できない状況下でも、反復列全体がグローバルに収束するための条件は何か?
- RQ3外挿とランダムシャッフルの導入により、実用的においても収束性が向上し、劣悪な局所解を回避できるか?
- RQ4提案手法は、非凸スパース回帰や非負行列因子分解といった具体的な非凸問題に適用可能であり、グローバル収束が保証されるか?
主な発見
- 提案されたブロックプロキシ線形(BPL)アルゴリズムは、非凸的・非滑らかな関数に広く成立する Kurdyka-Łojasiewicz (KL) 条件の下で、全列が臨界点にグローバルに収束することを達成した。
- 更新順序がサイクル的であれランダムにシャッフルされようが、各ブロックが固定回数以内に少なくとも1回は更新されれば、収束が保証される。
- 本手法は漸近的収束速度を確立しており、収束速度はKL指数と問題の局所的幾何構造に依存する。
- 数値実験では、非負行列およびテンソル因子分解問題において、ランダムシャッフルが劣悪な局所解を回避する確率を顕著に向上させた。
- 非凸正則化線形回帰($\boldsymbol{\text{ℓ}}_p$準ノルム正則化、$0 \leq p < 1$)に対して、BPL法がグローバル収束を示した。
- 非負行列因子分解における修正されたランク1残差反復に対しても、本手法はグローバル収束を保証した。これは、従来、理論的保証が欠けていた問題である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。