[論文レビュー] Inexact and Stochastic Generalized Conditional Gradient with Augmented Lagrangian and Proximal Step
本稿では、アフィン制約を伴う複素凸最適化問題を解くための、CGALPアルゴリズムの不正確かつ確率的変種であるICGALPを提案する。勾配、近位項、線形最小化オракルの誤差耐性計算を可能にし、ラグランジュ値が最適性にほとんど確実に収束し、制約が実行可能になることを保証する。弱いパrameter条件のもとで、最適性ギャップと実行可能性ギャップの両方について、O(1/(k+1)^0.24) の確率的収束速度を達成する。
In this paper we propose and analyze inexact and stochastic versions of the CGALP algorithm developed in [34], which we denote ICGALP, that allow for errors in the computation of several important quantities. In particular this allows one to compute some gradients, proximal terms, and/or linear minimization oracles in an inexact fashion that facilitates the practical application of the algorithm to computationally intensive settings, e.g., in high (or possibly infinite) dimensional Hilbert spaces commonly found in machine learning problems. The algorithm is able to solve composite minimization problems involving the sum of three convex proper lowersemicontinuous functions subject to an affine constraint of the form Ax = b for some bounded linear operator A. Only one of the functions in the objective is assumed to be differentiable, the other two are assumed to have an accessible proximal operator and a linear minimization oracle. As main results, we show convergence of the Lagrangian values (so-called convergence in the Bregman sense) and asymptotic feasibility of the affine constraint as well as strong convergence of the sequence of dual variables to a solution of the dual problem, in an almost sure sense. Almost sure convergence rates are given for the Lagrangian values and the feasibility gap for the ergodic primal variables. Rates in expectation are given for the Lagrangian values and the feasibility gap subsequentially in the pointwise sense. Numerical experiments verifying the predicted rates of convergence are shown as well.
研究の動機と目的
- 勾配、近位項、線形最小化オラクルの正確な計算が不可能な高次元または無限次元の凸最適化問題に対して、実用的なアルゴリズムを開発すること。
- CGALPアルゴリズムを拡張し、主要な構成要素に決定論的または確率的誤差を許容しながらも、収束保証を維持すること。
- ラグランジュ値が最適値にほとんど確実に収束し、アフィン制約Ax = bが実行可能になることを確立すること。
- 不正確および確率的設定下での最適性ギャップと実行可能性ギャップの最悪ケース収束速度を導出すること。
- リスク最小化および投影問題に対する数値実験を通じて、理論的結果を検証すること。誤差源やバッチサイズの変動を考慮する。
提案手法
- min_x {f(x) + g(Tx) + h(x) : Ax = b} を解くための、三つの凸関数とアフィン制約を伴うICGALPの提案。
- 増大ラグランジュに基づく双対変数更新に近位ステップを組み合わせ、双対反復列が双対解に弱収束することを可能にする。
- 誤差列の可summability条件を満たす条件下で、∇f、proxβg、および線形最小化オラクルの不正確な計算(確率的勾配または決定論的誤差を用いて)を採用する。
- Cesàro平均化反復(有効反復)を用いて、グローバル収束速度を導出し、ノイズおよび誤差に対してロバスト性を確保する。
- 不正確な誤差を満たすために、バッチサイズを増加させたり、分散低減を適用したりする。
- 反復に依存しない抽象的なオープンループパrameter列を用いることで、実用的な柔軟性を高める。
実験結果
リサーチクエスチョン
- RQ1CGALPアルゴリズムは、勾配、近位項、線形最小化オラクルの不正確または確率的計算を許容するように拡張可能か?収束保証は維持されるか?
- RQ2誤差列およびアルゴリズムパrameterにどのような条件を課すと、ラグランジュ値が最適値にほとんど確実に収束し、アフィン制約Ax = bが実行可能になるか?
- RQ3不正確および確率的設定下での最適性ギャップと実行可能性ギャップの最悪ケース収束速度は何か?また、正確な場合と比較するとどうなるか?
- RQ4分散低減やバッチサイズの増加は、実際の確率的誤差の要件を満たすためにどのように利用可能か?
- RQ5不正確な変種は、元のCGALPアルゴリズムと同様のパrameter依存性の収束速度を維持するか?
主な発見
- 勾配、近位項、線形最小化オラクルの不正確または確率的計算でさえも、ラグランジュ値が最適値にほとんど確実に収束することを達成する。
- プライマル反復列は、ほとんど確実にアフィン制約Ax = bを漸近的に満たす。すなわち、極限において実行可能になる。
- 同じ誤差条件のもとで、双対反復列は双対問題の解に弱収束する。
- 最適性ギャップおよび実行可能性ギャップの両方について、O(1/(k+1)^0.24) の有効収束速度が確立され、元のCGALPアルゴリズムの速度と一致する。
- 数値実験により、決定論的スイーピングおよび確率的分散低減法の両方で、予測された収束速度が確認された。異なるバッチサイズを用いた。
- 誤差列が可summability条件を満たす限り、確率的勾配や決定論的誤差といった実用的な誤差源をフレームワークがサポートし、収束が維持される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。