Skip to main content
QUICK REVIEW

[論文レビュー] Random Fourier Features for Kernel Ridge Regression: Approximation Bounds and Statistical Guarantees

Haim Avron, Michael Kapralov|arXiv (Cornell University)|Apr 26, 2018
Sparse and Compressive Sensing Techniques参考文献 17被引用数 27
ひとこと要約

本稿は、カーネルリッジ回帰(KRR)におけるランダムフーリエ特徴量(RFF)の最初のスペクトル近似解析を提供し、妥当な仮定の下でRFFがKRRを確実に高速化できることを示している。さらに、一様なランダム特徴量ではなく、カーネルレバレッジスコアに基づく分布からのサンプリングが、特に低次元かつ有界なデータセットにおいて優れた理論的保証をもたらすことを示しており、ガウスカーネルに関してはほぼ完全な特徴化がなされ、標準RFFを上回る効率的なサンプリング手法が提案されている。

ABSTRACT

Random Fourier features is one of the most popular techniques for scaling up kernel methods, such as kernel ridge regression. However, despite impressive empirical results, the statistical properties of random Fourier features are still not well understood. In this paper we take steps toward filling this gap. Specifically, we approach random Fourier features from a spectral matrix approximation point of view, give tight bounds on the number of Fourier features required to achieve a spectral approximation, and show how spectral matrix approximation bounds imply statistical guarantees for kernel ridge regression. Qualitatively, our results are twofold: on the one hand, we show that random Fourier feature approximation can provably speed up kernel ridge regression under reasonable assumptions. At the same time, we show that the method is suboptimal, and sampling from a modified distribution in Fourier space, given by the leverage function of the kernel, yields provably better performance. We study this optimal sampling distribution for the Gaussian kernel, achieving a nearly complete characterization for the case of low-dimensional bounded datasets. Based on this characterization, we propose an efficient sampling scheme with guarantees superior to random Fourier features in this regime.

研究の動機と目的

  • ランダムフーリエ特徴量(RFF)の統計的およびアルゴリズム的性質を理解すること。これは、強力な経験的性能にもかかわらず、依然として十分に理解されていない。
  • スペクトル行列近似の観点からRFFを分析し、カーネル行列のスペクトル近似を達成するために必要な特徴量の数に焦点を当てる。
  • 妥当な仮定の下でRFFがKRRを確実に高速化できることを示すと同時に、その非最適性も特定する。
  • 標準RFFよりも優れた理論的性能をもたらす、カーネルのレバレッジスコアに基づく改善されたサンプリング分布を提案・分析する。
  • 低次元かつ有界なデータセットにおけるガウスカーネルの最適なサンプリング分布についてほぼ完全な特徴化を提供し、実用的かつ理論的に優れたサンプリング手法を導く。

提案手法

  • 本稿はスペクトル行列近似の観点からRFFを分析し、正則化されたカーネル行列 $\mathbf{K} + \lambda \mathbf{I}$ のスペクトル近似を達成するために必要な特徴量の数に関する境界を確立する。
  • $(1 - \Delta)(\mathbf{K} + \lambda \mathbf{I}) \preceq \widetilde{\mathbf{K}} + \lambda \mathbf{I} \preceq (1 + \Delta)(\mathbf{K} + \lambda \mathbf{I})$ を満たすために必要な特徴量数 $s$ の上界および下界を導出する。この不等式は、KRRの統計的保証を直接示している。
  • カーネルのレバレッジ関数に基づいて導出された、フーリエ空間における修正されたサンプリング分布を導入し、近似品質を向上させる。
  • ガウスカーネルの場合、低次元かつ有界なデータ環境における最適なレバレッジベースのサンプリング分布について、ほぼ完全な特徴化がなされている。
  • この特徴化に基づき、標準RFFよりも優れたスペクトル近似と低い推定誤差を達成する効率的なサンプリング手法が提案されている。
  • 理論的結果は、合成データおよび実データ上で実証的に検証されており、リスク、インサンプル誤差、および条件数の観点から、RFF、提案手法(MRF)、および正確なKRRの比較がなされている。

実験結果

リサーチクエスチョン

  • RQ1カーネルリッジ回帰における正則化されたカーネル行列のスペクトル近似を達成するために、どれほどのランダムフーリエ特徴量が必要か?
  • RQ2カーネル行列のスペクトル近似バウンドは、KRR推定量の統計的保証を導出するために使用可能か?
  • RQ3標準的なランダムフーリエ特徴量のサンプリングは非最適であるか? もしそうであれば、より優れたサンプリング分布を構築可能か?
  • RQ4カーネルのレバレッジスコアに基づくサンプリングスキームの理論的性能は、特にガウスカーネルにおいてどうか?
  • RQ5正則化されたカーネル行列ペア $ (\mathbf{K} + \lambda \mathbf{I}, \widetilde{\mathbf{K}} + \lambda \mathbf{I}) $ の一般化された条件数は推定量の品質とどのように関係するか? また、エントリごとの誤差よりも性能をよりよく予測できるか?

主な発見

  • 本稿は、正則化されたカーネル行列のスペクトル近似を達成するために必要なランダムフーリエ特徴量の数に対する上界を確立し、これがカーネルリッジ回帰の統計的保証を保証することを示している。
  • ガウスカーネルに対しては、下界が証明されており、上界が対数要因を除いてタイトであることが示されている。
  • カーネルのレバレッジスコアに従って特徴量をサンプリングする提案手法(MRF)は、標準RFFよりも顕著に低い過剰リスクを達成しており、RFFがより良いエントリワイズ近似誤差を持つ場合でさえも同様である。
  • 経験的結果では、MRFのリスクは正確なKRRのリスクに速やかに収束するが、RFFのリスクは $ s > n $ であっても停滞し続ける。
  • 正則化された行列ペア $ (\mathbf{K} + \lambda \mathbf{I}, \widetilde{\mathbf{K}} + \lambda \mathbf{I}) $ の一般化された条件数は推定量の品質の強力な予測子であり、MRFはRFFよりも一貫して低い条件数を達成している。
  • 低次元かつ有界なデータセットにおけるガウスカーネルに関して、最適なレバレッジベースのサンプリング分布についてほぼ完全な特徴化がなされており、実用的かつ理論的に優れたサンプリング手法の実現が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。