Skip to main content
QUICK REVIEW

[论文解读] Faster Eigenvector Computation via Shift-and-Invert Preconditioning

Dan Garber, Elad Hazan|arXiv (Cornell University)|May 26, 2016
Stochastic Gradient Optimization Techniques参考文献 23被引用 34
一句话总结

本文提出了一种更快的算法,用于通过结合位移-求逆预条件法与随机方差缩减梯度(SVRG)求解器,计算矩阵的主特征向量。通过解耦非零元素数量与谱间隙的依赖关系,该方法实现了改进的运行时间界限——具体为 $\tilde{O}\big(\big[\text{nnz}(\mathbf{A}) + \frac{d\cdot\text{sr}(\mathbf{A})}{\text{gap}^2}\big]\cdot\log 1/\epsilon\big)$ 和 $\tilde{O}\big(\big[\text{nnz}(\mathbf{A})^{3/4}(d\cdot\text{sr}(\mathbf{A}))^{1/4}/\sqrt{\text{gap}}\big]\cdot\log 1/\epsilon\big)$——显著优于经典的幂法和Lanczos方法。

ABSTRACT

We give faster algorithms and improved sample complexities for estimating the top eigenvector of a matrix $Σ$ -- i.e. computing a unit vector $x$ such that $x^T Σx \ge (1-ε)λ_1(Σ)$: Offline Eigenvector Estimation: Given an explicit $A \in \mathbb{R}^{n imes d}$ with $Σ= A^TA$, we show how to compute an $ε$ approximate top eigenvector in time $ ilde O([nnz(A) + \frac{d*sr(A)}{gap^2} ]* \log 1/ε)$ and $ ilde O([\frac{nnz(A)^{3/4} (d*sr(A))^{1/4}}{\sqrt{gap}} ] * \log 1/ε)$. Here $nnz(A)$ is the number of nonzeros in $A$, $sr(A)$ is the stable rank, $gap$ is the relative eigengap. By separating the $gap$ dependence from the $nnz(A)$ term, our first runtime improves upon the classical power and Lanczos methods. It also improves prior work using fast subspace embeddings [AC09, CW13] and stochastic optimization [Sha15c], giving significantly better dependencies on $sr(A)$ and $ε$. Our second running time improves these further when $nnz(A) \le \frac{d*sr(A)}{gap^2}$. Online Eigenvector Estimation: Given a distribution $D$ with covariance matrix $Σ$ and a vector $x_0$ which is an $O(gap)$ approximate top eigenvector for $Σ$, we show how to refine to an $ε$ approximation using $ O(\frac{var(D)}{gap*ε})$ samples from $D$. Here $var(D)$ is a natural notion of variance. Combining our algorithm with previous work to initialize $x_0$, we obtain improved sample complexity and runtime results under a variety of assumptions on $D$. We achieve our results using a general framework that we believe is of independent interest. We give a robust analysis of the classic method of shift-and-invert preconditioning to reduce eigenvector computation to approximately solving a sequence of linear systems. We then apply fast stochastic variance reduced gradient (SVRG) based system solvers to achieve our claims.

研究动机与目标

  • 在离线与在线设置下,开发更快的主特征向量计算算法,尤其适用于特征间隙较小的情况。
  • 改进主特征向量算法在输入矩阵非零元素数量(nnz)与稳定秩(sr)上的运行时间依赖关系,特别是将间隙依赖与nnz项分离。
  • 通过仅使用 $O(\text{v}(\mathcal{D})/(\text{gap} \cdot \epsilon))$ 个样本,改进在线设置中对初始近似主特征向量的精炼过程,实现更优的样本复杂度。
  • 提供对位移-求逆预条件法在特征向量计算中应用的稳健理论分析,实现将问题高效约化为求解条件良好的线性系统。
  • 证明结合位移-求逆法与现代随机求解器(如SVRG)可实现比经典方法更快的收敛速度,并带来实际性能提升。

提出的方法

  • 通过构造 $\mathbf{B} = \lambda\mathbf{I} - \mathbf{A}^\top\mathbf{A}$,其中 $\lambda \approx \lambda_1(\mathbf{A}^\top\mathbf{A})$,采用位移-求逆预条件法,将主特征向量问题转化为具有更大有效间隙的问题。
  • 将特征向量计算约化为在 $\mathbf{B}$ 上求解一系列线性系统的近似问题,由于位移的存在,这些线性系统具有良好的条件性。
  • 使用随机方差缩减梯度(SVRG)方法高效求解这些线性系统,其内存占用低,且每次迭代的代价与单个样本成比例。
  • 在 $\mathbf{B}^{-1}$ 上应用反向幂法,通过迭代逐步改进对 $\mathbf{A}^\top\mathbf{A}$ 主特征向量的逼近。
  • 通过稳健分析确保线性系统求解中的误差不会降低收敛性,从而在高概率下保持 $\epsilon$-精度。
  • 该框架将谱性质(通过稳定秩与特征间隙表示)与数据稀疏性(通过nnz表示)分离,从而实现更紧致的运行时间界限。

实验结果

研究问题

  • RQ1当特征间隙较小时,位移-求逆预条件法是否可以被稳健分析,以实现更快的特征向量计算?
  • RQ2主特征向量算法的运行时间中,非零元素数量与稳定秩的依赖关系是否可以被解耦?
  • RQ3在具有分布访问能力的在线设置中,精炼初始近似主特征向量的最优样本复杂度是多少?
  • RQ4基于SVRG的求解器是否能与位移-求逆法有效结合,实现比经典方法更快的收敛速度?
  • RQ5使用预条件幂法与随机线性系统求解器时,运行时间与样本复杂度的理论边界是什么?

主要发现

  • 离线算法实现了 $\widetilde{O}\big(\big[\text{nnz}(\mathbf{A}) + \frac{d\cdot\text{sr}(\mathbf{A})}{\text{gap}^2}\big]\cdot\log 1/\epsilon\big)$ 的运行时间,通过解耦间隙与nnz依赖关系,优于幂法与Lanczos方法。
  • 加速变体实现了 $\widetilde{O}\big(\big[\text{nnz}(\mathbf{A})^{3/4}(d\cdot\text{sr}(\mathbf{A}))^{1/4}/\sqrt{\text{gap}}\big]\cdot\log 1/\epsilon\big)$,当 $\text{nnz}(\mathbf{A}) \leq \frac{d\cdot\text{sr}(\mathbf{A})}{\text{gap}^2}$ 时运行更快。
  • 在在线设置中,该算法仅使用 $O(\text{v}(\mathcal{D})/(\text{gap} \cdot \epsilon))$ 个样本,即可将一个 $O(\text{gap})$-近似特征向量精炼,显著提升样本复杂度。
  • 该框架使用基于SVRG的求解器求解 $\mathbf{B}$ 中的线性系统,可在 $1 - O(1/d^{10})$ 的置信度下实现高概率 $\epsilon$-精度。
  • 理论分析表明,线性系统求解中的误差传播受到控制,迭代过程中在主特征向量方向上的分量保持 $\Omega(\alpha_1^2)$ 的量级。
  • 结果表明,位移-求逆方法不仅理论合理,且在实践中也有效,具有在现实应用中进一步提升性能的潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。