Skip to main content
QUICK REVIEW

[论文解读] A Scalable CUR Matrix Decomposition Algorithm: Lower Time Complexity and Tighter Bound

Shusen Wang, Zhihua Zhang|arXiv (Cornell University)|Oct 4, 2012
Advanced Image and Video Retrieval Techniques参考文献 17被引用 17
一句话总结

该论文提出了一种新颖的随机化CUR矩阵分解算法,相较于现有方法,其相对误差界更紧,时间复杂度更低。通过结合自适应列采样与基于对偶集稀疏化和自适应采样的两阶段行选择策略,该算法将计算成本降低至 𝒪(mnkε⁻²ᐟ³ + (m+n)k³ε⁻²ᐟ³,同时保持 (1+ε)-相对误差近似,显著提升了大规模矩阵的可扩展性。

ABSTRACT

The CUR matrix decomposition is an important extension of Nyström approximation to a general matrix. It approximates any data matrix in terms of a small number of its columns and rows. In this paper we propose a novel randomized CUR algorithm with an expected relative-error bound. The proposed algorithm has the advantages over the existing relative-error CUR algorithms that it possesses tighter theoretical bound and lower time complexity, and that it can avoid maintaining the whole data matrix in main memory. Finally, experiments on several real-world datasets demonstrate significant improvement over the existing relative-error algorithms.

研究动机与目标

  • 解决现有CUR算法在计算成本高和理论界较弱方面的局限性。
  • 减少CUR分解中所需列和行的数量,以提升大规模矩阵的实用性。
  • 设计一种避免将整个数据矩阵存储在主内存中的方法,实现内存高效的计算。
  • 在理论保证方面,相较于先前工作,实现 (1+ε)-相对误差近似。
  • 设计一种计算高效的算法,在理论和实践上均优于当前最先进方法。

提出的方法

  • 提出一种两阶段CUR算法:首先使用基于近似SVD的自适应采样方法选择列,然后通过双重集稀疏化和额外的自适应采样选择行。
  • 在 O(mnk/ε₀) 时间内使用近似截断SVD计算输入矩阵 A 的低秩近似。
  • 使用双重集稀疏化从残差矩阵 (Aᵀ − Ãₖᵀ) 和投影矩阵 Ũₖᵀ 中选择 r₁ 行,确保Frobenius范数误差较低。
  • 应用自适应采样算法选择 r₂ 个额外行,以进一步降低重构误差,其中 r₂ ≈ 2ρ/ε。
  • 将所选列 C 和行 R 组合形成CUR分解,U 通过 C†AR† 计算。
  • 通过随机采样的期望推导理论界,表明期望误差被限制在 (1+ε)‖A−Aₖ‖_F² 以内。

实验结果

研究问题

  • RQ1是否可以在保持 (1+ε)-相对误差界的同时,降低CUR分解的时间复杂度?
  • RQ2与现有最先进算法相比,是否可以减少所需列和行的数量?
  • RQ3是否可以设计一种避免将完整矩阵保留在主内存中的CUR算法?
  • RQ4通过新颖的采样策略,是否可以实现更紧的理论误差界?
  • RQ5在真实世界数据集上,该算法是否在实践中优于现有相对误差CUR算法?

主要发现

  • 所提算法实现了 (1+ε)-相对误差近似,其理论界比 Drineas 等人 (2008) 的最先进方法更紧。
  • 时间复杂度降低至 𝒪(mnkε⁻²ᐟ³ + (m+n)k³ε⁻²ᐟ³,显著低于截断SVD的 𝒪(mn²k) 成本和先前CUR方法的 𝒪(k⁴ε⁻⁶) 成本。
  • 该算法在期望下仅需 O(kε⁻²ᐟ³) 列和 O(kε⁻²ᐟ³) 行,相比先前工作减少了采样实体的数量。
  • 通过流式处理和采样技术,该方法避免将整个矩阵存储在主内存中,显著提升了内存效率。
  • 在真实世界数据集上的实验表明,该方法在近似精度和运行时间方面均显著优于现有相对误差CUR算法。
  • 期望Frobenius范数误差被限制在 (1+2ε)‖A−Aₖ‖_F² 以内,这意味着在应用平方根后,期望误差为 (1+ε)‖A−Aₖ‖_F,从而确认了 (1+ε)-相对误差保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。