QUICK REVIEW

[論文レビュー] Dropping Convexity for Faster Semi-definite Optimization

Srinadh Bhojanapalli, Anastasios Kyrillidis|arXiv (Cornell University)|Sep 14, 2015

Sparse and Compressive Sensing Techniques参考文献 63被引用数 49

ひとこと要約

本稿は、半正定値最適化を高速化するためのファクタライズド・グラディエント・ディセント（FGD）を提案する。凸問題 $\min_X f(X)$ で $X \succeq 0$ を満たすものに対して、非凸なファクタライズド形式 $\min_U g(U) = f(UU^T)$ に変換し、$U \in \mathbb{R}^{n \times r}$ を用いる。本稿では、新規のステップサイズルールと適切な初期化を用いることで、FGDが標準的グラディエント・ディセントと同等の収束速度を達成することを確立した—平滑凸関数 $f$ に対しては $O(1/k)$ のサブラインアーレート、制限付き強い凸性のもとでは線形収束—、この広く使われている手法に対する最初の一般的な収束保証を提供する。

ABSTRACT

We study the minimization of a convex function $f(X)$ over the set of $n imes n$ positive semi-definite matrices, but when the problem is recast as $\min_U g(U) := f(UU^ op)$, with $U \in \mathbb{R}^{n imes r}$ and $r \leq n$. We study the performance of gradient descent on $g$---which we refer to as Factored Gradient Descent (FGD)---under standard assumptions on the original function $f$. We provide a rule for selecting the step size and, with this choice, show that the local convergence rate of FGD mirrors that of standard gradient descent on the original $f$: i.e., after $k$ steps, the error is $O(1/k)$ for smooth $f$, and exponentially small in $k$ when $f$ is (restricted) strongly convex. In addition, we provide a procedure to initialize FGD for (restricted) strongly convex objectives and when one only has access to $f$ via a first-order oracle; for several problem instances, such proper initialization leads to global convergence guarantees. FGD and similar procedures are widely used in practice for problems that can be posed as matrix factorization. To the best of our knowledge, this is the first paper to provide precise convergence rate guarantees for general convex functions under standard convex assumptions.

研究の動機と目的

行列因子分解に基づく半正定値最適化におけるファクタライズド・グラディエント・ディセント（FGD）の実証的成果と理論的理解のギャップを埋めること。
凸関数 $f(X)$ を正定値行列上での最小化問題として解く際、非凸パラメータ化 $X = UU^T$ を用いた FGD の収束速度保証を提供すること。
標準的な凸性仮定のもとで、最適解または近似的最適解への収束を保証するステップサイズルールと初期化手順を確立すること。
非凸な因子化問題であっても、古典的グラディエント・ディセントの収束速度と同等の速度で FGD が収束することを示すこと。

提案手法

凸な半正定値計画問題 $\min_{X \succeq 0} f(X)$ を、制約なし最適化を可能にする非凸なファクタライズド形式 $\min_{U \in \mathbb{R}^{n \times r}} f(UU^T)$ に再定式化する。
更新則 $U^{+} = U - \eta \nabla f(UU^T) U$ を用いたファクタライズド・グラディエント・ディセント（FGD）を提案する。ここで $\eta$ は、$f$ の平滑性と最適解 $X^\star$ の最大特異値に依存する新規のステップサイズである。
未知の最適解 $X^\star$ に依存するステップサイズルールを導入し、$X^\star$ の定数倍推定値を用いることで収束が保証されることを示す。
$f$ が制限付き強く凸である場合に、第一順序オракルへのアクセスのみで使用可能な適切な初期化手順を提供し、グローバル収束を保証する。
標準的な凸解析ツール（平滑性と制限付き強い凸性（RSC））を用いて収束を分析し、行列の摂動およびスペクトル技法を用いて勾配と反復のバインドを導出する。
低ランク因子空間における勾配と反復の挙動を分析するため、行列分解と射影演算子（例：$Q_U Q_U^T$）を用いる。

実験結果

リサーチクエスチョン

RQ1非凸な因子化問題 $\min_U f(UU^T)$ におけるファクタライズド・グラディエント・ディセント（FGD）は、元の凸問題における古典的グラディエント・ディセントと同等の収束速度を達成できるか？
RQ2標準的な凸性仮定のもとで FGD の収束を保証するステップサイズルールは何か？また、最適解が未知である場合にどのように実装できるか？
RQ3FGD がグローバルに収束する条件は何か？また、制限付き強く凸な目的関数に対して、どのような初期化戦略がこれを保証するか？
RQ4$r < r^\star$ の場合、すなわち因子化ランクが真の最適解のランク未満の場合、FGD はどのように振る舞うか？
RQ5$f$ が完全な強い凸性を満たさない場合でも、平滑性または制限付き強い凸性のみを仮定した場合に、収束解析を拡張できるか？

主な発見

平滑凸関数 $f$ に対して、FGD は $O(1/k)$ のサブラインアーレートを達成し、元の凸問題における標準的グラディエント・ディセントと同等の速度である。
関数 $f$ が制限付き強く凸（RSC）である場合、FGD は一意な最適解 $X^\star$ へ線形収束する。これは、強い凸性のもとで古典的グラディエント・ディセントが達成する収束速度と一致する。
$r < r^\star$ の場合、平滑性と RSC のもとで、FGD は $X^\star$ の最良のランク-$r$ 近似からの距離が $O(\sigma_r(X^\star)/\kappa)$ の範囲に収束する。
提案されたステップサイズルールは、平滑性定数 $M$ と $X^\star$ の最大特異値に依存し、$X^\star$ の定数倍推定値を用いることで収束を保証できる。
第一順序オラクルへのアクセスのみで使用可能な、RSC 目的関数向けの適切な初期化手順が提供され、グローバル収束保証が可能になる。
解析により、$g(U) = f(UU^T)$ の勾配が因子空間でうまく振る舞い、かつ真の $f$ の勾配と低ランク多様体上で整合する降下方向をとることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。