QUICK REVIEW

[論文レビュー] Approximation beats concentration? An approximation view on inference with smooth radial kernels

Mikhail A. Belkin|arXiv (Cornell University)|Jan 10, 2018

Gaussian Processes and Bayesian Inference被引用数 31

ひとこと要約

この論文は近似理論を用いてカーネル法における滑らかな径方向カーネルを分析し、固有値がほぼ指数的に減少し、RKHS関数の係数が急速に減少することを示し、低ランク構造が有効に現れることを明らかにする。主な貢献は「近似が集中を上回る」という現象である：標準の集中結果とは異なり、測度に依存しない近似理論的境界により、固有値の減少率とファットシャッタリング次元の両方がよりタイトに抑えられる。

ABSTRACT

Positive definite kernels and their associated Reproducing Kernel Hilbert Spaces provide a mathematically compelling and practically competitive framework for learning from data. In this paper we take the approximation theory point of view to explore various aspects of smooth kernels related to their inferential properties. We analyze eigenvalue decay of kernels operators and matrices, properties of eigenfunctions/eigenvectors and "Fourier" coefficients of functions in the kernel space restricted to a discrete set of data points. We also investigate the fitting capacity of kernels, giving explicit bounds on the fat shattering dimension of the balls in Reproducing Kernel Hilbert spaces. Interestingly, the same properties that make kernels very effective approximators for functions in their "native" kernel space, also limit their capacity to represent arbitrary functions. We discuss various implications, including those for gradient descent type methods. It is important to note that most of our bounds are measure independent. Moreover, at least in moderate dimension, the bounds for eigenvalues are much tighter than the bounds which can be obtained from the usual matrix concentration results. For example, we see that the eigenvalues of kernel matrices show nearly exponential decay with constants depending only on the kernel and the domain. We call this "approximation beats concentration" phenomenon as even when the data are sampled from a probability distribution, some of their aspects are better understood in terms of approximation theory.

研究の動機と目的

カーネル法の分析を集中不等式の代わりに近似理論に基づいて再定式化すること。
滑らかな径方向カーネルの推論的制限を理解すること、特に任意の関数へのフィッティング能力について。
RKHSボールの固有値の減少率とファットシャッタリング次元に対する測度に依存しない境界を提供すること。
カーネル幅とRKHS容量の関係を明確にすることにより、広いカーネルほど小さな関数空間をもたらすことを示すこと。
滑らかなカーネルを用いた勾配降下法が乱雑ラベルをフィットしにくい理由を、係数の減少と計算複雑性の観点から説明すること。

提案手法

近似理論を用いて、データ測度に依存しないほぼ指数的減少を示すカーネル作用素と行列の固有値減少を分析する。
RKHSのフーリエドメイン特徴付けを用い、異なるカーネル幅が誘導する関数空間を比較する。
係数の減少とスペクトル特性を用いて、RKHSボールのファットシャッタリング次元の境界を導出する。
カーネル行列の上位固有ベクトルが、データ点に中心を置いたカーネル関数の線形結合によってほぼ指数的に近似可能であることを示す。
固有関数近似に関する結果を応用し、上位固有ベクトルの線形空間が測度の変化に対して頑健であることを示す。
滑らかな径方向カーネルが急速に減少するフーリエ変換を持つことを利用して、RKHSノルムと関数空間の包含関係に関する境界を導出する。

実験結果

リサーチクエスチョン

RQ1なぜ標準的な行列集中結果では、カーネル行列固有値の真の減少率を捉えられていないのか？
RQ2大きなデータでも、滑らかな径方向カーネルがカーネル法のフィッティング能力をどれほど制限するのか？
RQ3カーネル幅の選択が、対応するRKHSの関数空間にどのように影響するのか？
RQ4近似理論は、集中に基づく手法よりも、RKHSボールのファットシャッタリング次元に対してタイトな境界を提供できるか？
RQ5なぜ滑らかなカーネルは乱雑ラベルをフィットしにくく、これは固有基底における係数の減少とどのように関係するのか？

主な発見

滑らかな径方向カーネル行列の固有値は、データ測度に依存しないカーネルと次元にのみ依存する定数を用いてほぼ指数的に減少する。
滑らかなカーネルのRKHSに属する関数は、データ測度に依存せず、固有基底においてフーリエ係数がほぼ指数的に減少する。
カーネル行列の上位固有ベクトルの線形空間は、データ点に中心を置いたカーネル関数の線形結合によってほぼ指数的に近似可能である。
RKHSの半径Rのボールのファットシャッタリング次元は、R/γに関して多項対数的であり、正則化および勾配ベースの手法のフィッティング能力を制限する。
より広いガウスカーネルはより小さなRKHS空間をもたらす：より広いカーネルのRKHSは、より狭いカーネルのRKHSに含まれており、ノルムはσ^{-d/2}に比例してスケーリングされる。
滑らかなカーネルを用いた勾配降下法は、固有基底における指数的に小さな係数を必要とするため、乱雑ラベルをフィットする際に超立方体の計算複雑性に直面する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。