Skip to main content
QUICK REVIEW

[論文レビュー] Fast Randomized Kernel Methods With Statistical Guarantees

A. El Alaoui, Michael W. Mahoney|arXiv (Cornell University)|Nov 2, 2014
Stochastic Gradient Optimization Techniques参考文献 16被引用数 55
ひとこと要約

この論文は、新しい種類の統計的リーバッジスコアの変種を用いて、有効次元性 $d_{\text{eff}}$ にまでサンプリングの複雑さを低減する、高速なランダム化カーネル手法を導入する。$O(np^2)$ 時間でこれらのスコアの粗い近似を計算することで、最大自由度 $d_{\text{mof}}$ に依存する従来の手法よりも少ないカラム数で、より優れた統計的保証が得られる。この手法により、計算が高速化され、一般化バウンドがタイトに保たれる一方で、近似的に最適な予測性能を維持する。

ABSTRACT

One approach to improving the running time of kernel-based machine learning methods is to build a small sketch of the input and use it in lieu of the full kernel matrix in the machine learning task of interest. Here, we describe a version of this approach that comes with running time guarantees as well as improved guarantees on its statistical performance. By extending the notion of \emph{statistical leverage scores} to the setting of kernel ridge regression, our main statistical result is to identify an importance sampling distribution that reduces the size of the sketch (i.e., the required number of columns to be sampled) to the \emph{effective dimensionality} of the problem. This quantity is often much smaller than previous bounds that depend on the \emph{maximal degrees of freedom}. Our main algorithmic result is to present a fast algorithm to compute approximations to these scores. This algorithm runs in time that is linear in the number of samples---more precisely, the running time is $O(np^2)$, where the parameter $p$ depends only on the trace of the kernel matrix and the regularization parameter---and it can be applied to the matrix of feature vectors, without having to form the full kernel matrix. This is obtained via a variant of length-squared sampling that we adapt to the kernel setting in a way that is of independent interest. Lastly, we provide empirical results illustrating our theory, and we discuss how this new notion of the statistical leverage of a data point captures in a fine way the difficulty of the original statistical learning problem.

研究の動機と目的

  • Nystr\
  • 新しい $\lambda$-リッジリーバッジスコアの概念を導入し、カーネルリッジ回帰に特化したものとして、学習の統計的難易度をよりよく反映する。
  • 有効次元性 $d_{\text{eff}} = \mathrm{Tr}(K(K + n\lambda I)^{-1})$ によって、Nystr\

提案手法

  • 正則化されたカーネル行列の射影行列から導かれる、カーネルリッジ回帰に特化した新しいリーバッジスコアの変種—$\lambda$-リッジリーバッジスコア—を定義する。
  • Nystr\

実験結果

リサーチクエスチョン

  • RQ1Nystr\

主な発見

  • 提案手法は、$d_{\text{eff}} \ll d_{\text{mof}}$ の場合に、Bach (2013) の $O(d_{\text{mof}}/\epsilon)$ の境界よりも顕著に改善された $O(d_{\text{eff}}/\epsilon)$ のカラム数で、$1+\epsilon$ の統計的性能保証を達成する。
  • 実験的結果では、$d_{\text{eff}}$ が $d_{\text{mof}}$ よりもはるかに小さいことが多く、Pumadyn データセットにおけるRBFカーネルでは、$d_{\text{eff}}/d_{\text{mof}} \approx 0.048$ の比が得られた。
  • 全データセットで、$p = 2d_{\text{eff}}$ の場合、リスク比 $\mathcal{R}(\hat{f}_L)/\mathcal{R}(\hat{f}_K)$ が1.01~1.10の範囲に収まり、理論的保証が確認された。
  • アルゴリズムは、カーネル行列のトレースと正則化パラメータにのみ依存する $p$ を用いて、$O(np^2)$ 時間で近似された $\lambda$-リッジリーバッジスコアを計算し、スケーラビリティを実現した。
  • 合成ベルヌーイデータセットでは、$\lambda$-リッジリーバッジスコアが、区間の中心など代表されない領域を的確に特定しており、構造的に重要な点を検出する能力を示した。
  • Pumadyn およびガスセンサーデータセットにおけるRBFカーネルでは、$p = d_{\text{eff}}$ の場合、リスク比が0.99~1.00に達し、最小限のサンプリングで近似的に最適な性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。