QUICK REVIEW

[論文レビュー] Recursive Sampling for the Nyström Method

Cameron Musco, Christopher Musco|arXiv (Cornell University)|Jan 1, 2017

Model Reduction and Neural Networks被引用数 83

ひとこと要約

本稿では、リッジリッジスコアの再帰的サンプリングを用いた線形時間Nystr"{o}m法を提案する。この手法は、正則性や非一様性の仮定を必要とせず、保証された精度を持つカーネル近似を可能にする。従来のNystr"{o}m法やランダムフーリエ特徴量と比較して、カーネル評価回数をO(ns)、実行時間をO(ns^2)に削減することで、優れた精度と高速性を達成する。

ABSTRACT

We give the first algorithm for kernel Nystrom approximation that runs in linear time in the number of training points and is provably accurate for all kernel matrices, without dependence on regularity or incoherence conditions. The algorithm projects the kernel onto a set of s landmark points sampled by their ridge leverage scores, requiring just O(ns) kernel evaluations and O(ns^2) additional runtime. While leverage score sampling has long been known to give strong theoretical guarantees for Nystrom approximation, by employing a fast recursive sampling scheme, our algorithm is the first to make the approach scalable. Empirically we show that it finds more accurate kernel approximations in less time than popular techniques such as classic Nystrom approximation and the random Fourier features method.

研究の動機と目的

カーネルの正則性や非一様性といった制限的な仮定に依存しない、保証された精度を持つスケーラブルなNystr"{o}m法の不足を補う。
理論的保証を維持しながら、大規模データセットに効率的にスケーリングできる実用的アルゴリズムを開発する。
従来のリッジスコアサンプリングの計算的非現実性を克服するため、再帰的サンプリングスキームを導入する。
従来の方法（例：古典的Nystr"{o}m法やランダムフーリエ特徴量）よりも、近似精度と実行時間効率の両面で向上する。

提案手法

Nystr"{o}m近似に強い理論的保証をもたらすことが知られているリッジリッジスコアを用いて、s個のランドマークポイントをサンプリングする。
完全なSVDや高価な行列演算を回避するため、効率的にリッジリッジスコアを計算する再帰的サンプリング戦略を採用する。
選択されたランドマークポイントにカーネル行列を射影することで、問題のサイズを縮小しつつ近似品質を保持する。
カーネル評価をO(ns)、追加計算をO(ns^2)に制限し、トレーニングポイント数に対して線形時間計算量を達成する。
計算オーバーヘッドを最小限に抑えつつ精度を維持するため、サンプリングプロセスにおいて反復的リファインメントを用いる。
理論的正しさを保証するため、構造的仮定に依存せず、すべてのカーネル行列に対して精度が保たれることを証明する。

実験結果

リサーチクエスチョン

RQ1正則性仮定を必要とせず、大規模なカーネル近似にスケーラブルなリッジリッジスコアサンプリングは、理論的保証を失わずに実現可能か？
RQ2リッジリッジスコアの再帰的サンプリングは、標準的手法と比較して、より高速かつ高精度なNystr"{o}m近似を実現できるか？
RQ3正則性や非一様性の条件を満たさないカーネル行列に対しても、線形時間計算量を維持しながら精度を保てるか？
RQ4実験的に、本手法は古典的Nystr"{o}m法やランダムフーリエ特徴量と比較して、実行時間と近似誤差の両面で優れているか？

主な発見

提案手法はトレーニングポイント数に対して線形時間O(ns)で実行され、大規模データセットへのスケーラビリティを実現する。
正則性や非一様性の仮定を必要とせず、すべてのカーネル行列に対して保証された精度を持つカーネル近似を達成する。
カーネル評価回数をO(ns)に削減し、全行列計算と比較して計算コストを顕著に低減する。
実験的結果から、本手法は古典的Nystr"{o}m法やランダムフーリエ特徴量よりもより高精度なカーネル近似を生成することが示された。
再帰的サンプリングスキームにより、リッジリッジスコアの効率的計算が可能となり、大規模学習における理論的に最適なサンプリングを実用的なものにした。
本手法は、速度と精度の両面で既存の手法を上回り、強力な実用的有用性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。