Skip to main content
QUICK REVIEW

[论文解读] Dropping Convexity for Faster Semi-definite Optimization

Srinadh Bhojanapalli, Anastasios Kyrillidis|arXiv (Cornell University)|Sep 14, 2015
Sparse and Compressive Sensing Techniques参考文献 63被引用 49
一句话总结

该论文提出了一种因子化梯度下降(FGD)方法,通过将凸优化问题 $\min_X f(X)$(约束条件为 $X \succeq 0$)转化为非凸的因子化形式 $\min_U g(U) = f(UU^T)$,其中 $U \in \mathbb{R}^{n \times r}$,从而实现更快的半定优化。该方法在采用新型步长规则和合适的初始化条件下,实现了与标准梯度下降相同的收敛速率——对于光滑凸函数 $f$ 为 $O(1/k)$,在受限强凸性条件下实现线性收敛,首次为这一广泛应用的方法提供了通用的收敛性保证。

ABSTRACT

We study the minimization of a convex function $f(X)$ over the set of $n imes n$ positive semi-definite matrices, but when the problem is recast as $\min_U g(U) := f(UU^ op)$, with $U \in \mathbb{R}^{n imes r}$ and $r \leq n$. We study the performance of gradient descent on $g$---which we refer to as Factored Gradient Descent (FGD)---under standard assumptions on the original function $f$. We provide a rule for selecting the step size and, with this choice, show that the local convergence rate of FGD mirrors that of standard gradient descent on the original $f$: i.e., after $k$ steps, the error is $O(1/k)$ for smooth $f$, and exponentially small in $k$ when $f$ is (restricted) strongly convex. In addition, we provide a procedure to initialize FGD for (restricted) strongly convex objectives and when one only has access to $f$ via a first-order oracle; for several problem instances, such proper initialization leads to global convergence guarantees. FGD and similar procedures are widely used in practice for problems that can be posed as matrix factorization. To the best of our knowledge, this is the first paper to provide precise convergence rate guarantees for general convex functions under standard convex assumptions.

研究动机与目标

  • 弥合因子化梯度下降(FGD)在基于矩阵分解的半定优化中经验成功与理论理解之间的差距。
  • 为通过非凸参数化 $X = UU^T$ 在正半定矩阵上最小化凸函数 $f(X)$ 的 FGD 提供收敛速率保证。
  • 建立一种步长规则和初始化方法,确保在标准凸性假设下收敛到最优或近似最优解。
  • 证明 FGD 在非凸因子化问题上可达到与原始凸问题上经典梯度下降相同的收敛速率。

提出的方法

  • 将凸半定规划 $\min_{X \succeq 0} f(X)$ 重写为 $\min_{U \in \mathbb{R}^{n \times r}} f(UU^T)$,从而实现无约束优化。
  • 提出因子化梯度下降(FGD),其更新规则为 $U^{+} = U - \eta \nabla f(UU^T) U$,其中 $\eta$ 是一种新型步长,依赖于 $f$ 的光滑常数和最优解 $X^\star$ 的最大奇异值。
  • 提出一种依赖于未知最优解 $X^\star$ 的步长规则,并证明使用 $X^\star$ 的常数倍估计即可保证收敛。
  • 为受限强凸函数 $f$ 提供 FGD 的合适初始化方法,确保在仅使用一阶预言机访问的情况下实现全局收敛。
  • 利用标准凸分析工具(包括光滑性和受限强凸性,RSC)分析收敛性,并通过矩阵扰动和谱技术推导梯度和迭代值的界。
  • 使用矩阵分解和投影算子(如 $Q_U Q_U^T$)分析低秩因子空间中梯度和迭代值的行为。

实验结果

研究问题

  • RQ1在非凸因子化问题 $\min_U f(UU^T)$ 上,因子化梯度下降(FGD)能否实现与原始凸问题上经典梯度下降相匹配的收敛速率?
  • RQ2在标准凸性假设下,何种步长规则可确保 FGD 的收敛性?当最优解未知时,该规则如何实现?
  • RQ3在何种条件下 FGD 可实现全局收敛?何种初始化策略可确保对受限强凸目标函数实现全局收敛?
  • RQ4当 $r < r^\star$ 时,即因子化秩低于最优解的真实秩时,FGD 的表现如何?
  • RQ5该收敛性分析能否扩展到 $f$ 仅光滑或仅受限强凸的情况,而无需完整的强凸性条件?

主要发现

  • 对于 $M$-光滑凸函数 $f$,FGD 实现了 $O(1/k)$ 的次线性收敛速率,与原始凸问题上标准梯度下降的速率一致。
  • 当 $f$ 为受限强凸函数(RSC)时,FGD 线性收敛至唯一最优解 $X^\star$,其收敛速率与强凸性条件下经典梯度下降的速率一致。
  • 当 $r < r^\star$ 时,在光滑性和 RSC 条件下,FGD 收敛至 $X^\star$ 的最佳秩-$r$ 近似解的 $O(\sigma_r(X^\star)/\kappa)$ 范围内。
  • 所提出的步长规则依赖于光滑常数 $M$ 和 $X^\star$ 的最大奇异值,且可通过使用 $X^\star$ 的常数倍估计来近似,从而保证收敛。
  • 为 RSC 目标函数提供了仅依赖一阶预言机访问的合适初始化方法,从而实现全局收敛保证。
  • 分析表明,函数 $g(U) = f(UU^T)$ 在因子空间中的梯度行为良好,且下降方向与 $f$ 在低秩流形上的真实梯度对齐。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。