Skip to main content
QUICK REVIEW

[论文解读] Revisiting the Nystrom Method for Improved Large-Scale Machine Learning

Alex Gittens, Michael W. Mahoney|arXiv (Cornell University)|Mar 7, 2013
Sparse and Compressive Sensing Techniques参考文献 66被引用 57
一句话总结

本文通過對採樣與投影方法的實證比較,重新探討了常用於核矩陣和拉普拉斯矩陣的對稱正半定(SPSD)矩陣的低秩近似Nystrom方法,並推導出改進的最壞情況理論邊界。結果表明,基於槓桿係數的採樣與隨機投影在性能上具有互補性,其理論保證在譜範數、Frobenius範數和跡範數誤差方面均優於以往工作。

ABSTRACT

We reconsider randomized algorithms for the low-rank approximation of symmetric positive semi-definite (SPSD) matrices such as Laplacian and kernel matrices that arise in data analysis and machine learning applications. Our main results consist of an empirical evaluation of the performance quality and running time of sampling and projection methods on a diverse suite of SPSD matrices. Our results highlight complementary aspects of sampling versus projection methods; they characterize the effects of common data preprocessing steps on the performance of these algorithms; and they point to important differences between uniform sampling and nonuniform sampling methods based on leverage scores. In addition, our empirical results illustrate that existing theory is so weak that it does not provide even a qualitative guide to practice. Thus, we complement our empirical results with a suite of worst-case theoretical bounds for both random sampling and random projection methods. These bounds are qualitatively superior to existing bounds---e.g. improved additive-error bounds for spectral and Frobenius norm error and relative-error bounds for trace norm error---and they point to future directions to make these algorithms useful in even larger-scale machine learning applications.

研究动机与目标

  • 在現實的機器學習與資料分析場景中,實證評估隨機採樣與投影方法在SPSD矩陣低秩近似中的性能與執行時間。
  • 識別並解釋資料獨立的隨機投影與資料相關的槓桿係數採樣在譜範數、Frobenius範數與跡範數重構誤差方面的互補優勢。
  • 通過推導更具質性優勢且適用於採樣與投影方法的全新最壞情況誤差邊界,彌補現有理論邊界的限制。
  • 釐清輸入矩陣的結構特性(特別是槓桿係數與譜衰減)如何影響近似品質,並指導算法選擇。
  • 證明透過快速槓桿係數與快速投影技術優化後,高品質的採樣與投影演算法可達到相近的執行時間。

提出的方法

  • 在機器學習與資料分析應用中取得的多樣化稠密與稀疏SPSD矩陣上,實證評估採樣與投影方法。
  • 使用基於槓桿係數的隨機採樣與均勻採樣,以及透過結構化隨機矩陣實現的隨機投影。
  • 應用快速演算法近似統計槓桿係數,並實現快速隨機投影,以降低計算瓶頸。
  • 推導適用於任何壓縮矩陣作用於SPSD矩陣的確定性結構邊界,強調槓桿係數與子空間結構的作用。
  • 建立採樣與投影方法的高概率最壞情況誤差邊界,超越現有加法誤差與相對誤差邊界。
  • 提出一個理論框架,將演算法隨機性與矩陣結構特性分離,從而實現對特定輸入近似品質的認證。

实验结果

研究问题

  • RQ1在現實世界SPSD矩陣中,資料相關的槓桿係數採樣與資料獨立的隨機投影在譜範數、Frobenius範數與跡範數重構誤差方面如何比較?
  • RQ2在執行時間與近似品質之間,均勻採樣、槓桿係數採樣與隨機投影之間存在哪些計算權衡?
  • RQ3為什麼實證結果經常超出現有最壞情況理論邊界的預測?哪些矩陣結構特性可解釋此差距?
  • RQ4是否可利用確定性結構特性(如槓桿係數與譜衰減)來認證高品質的低秩近似,而不依賴機率邊界?
  • RQ5在近似SPSD矩陣的top-k特徵空間時,槓桿係數採樣何時優於隨機投影,反之亦然?

主要发现

  • 基於槓桿係數的採樣與隨機投影方法表現出互補性:採樣在較少樣本下更擅長捕捉top-k特徵空間,而投影則在多樣化的矩陣結構中表現更為穩健。
  • 透過快速槓桿係數近似與結構化隨機投影加速後,高品質的採樣與投影演算法可達到相近的執行時間。
  • 兩種方法的理論邊界在譜範數與Frobenius範數中實現改進的加法誤差控制,在跡範數中實現相對誤差邊界,其質性強度優於先前結果。
  • 即使僅使用O(k)組測量值,兩種方法在所有範數下均能將近似誤差控制在最佳rank-k近似的約3倍之內。
  • 低秩方法難以近似的矩陣(例如高一致性的矩陣)也正是均勻採樣最嚴重失敗之處,突顯了矩陣結構的重要性。
  • 理論分析顯示,結構非均勻性(特別是槓桿係數)決定了近似品質,這些特性可被用來設計更優的確定性或貪心採樣啟發式方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。