QUICK REVIEW

[論文レビュー] Optimal learning rates for Kernel Conjugate Gradient regression

Gilles Blanchard, Nicole Krämer|arXiv (Cornell University)|Sep 29, 2010

Sparse and Compressive Sensing Techniques参考文献 24被引用数 24

ひとこと要約

本稿は、正則化としての早期停止を用いたカーネル共役勾配回帰における最適な学習率を確立する。真の回帰関数が再生核ヒルベルト空間に属する場合、最小最大下界（対数要因を除いて）に一致する収束速度を証明する。さらに、追加のラベルなしデータを用いることで、モデルが誤った場合の収束速度を拡張し、カーネルリッジ回帰や最小二乗サポートベクターマシンと同等の最先端の性能を達成する。

ABSTRACT

We prove rates of convergence in the statistical sense for kernel-based least squares regression using a conjugate gradient algorithm, where regularization against overfitting is obtained by early stopping. This method is directly related to Kernel Partial Least Squares, a regression method that combines supervised dimensionality reduction with least squares projection. The rates depend on two key quantities: first, on the regularity of the target regression function and second, on the intrinsic dimensionality of the data mapped into the kernel space. Lower bounds on attainable rates depending on these two quantities were established in earlier literature, and we obtain upper bounds for the considered method that match these lower bounds (up to a log factor) if the true regression function belongs to the reproducing kernel Hilbert space. If this assumption is not fulfilled, we obtain similar convergence rates provided additional unlabeled data are available. The order of the learning rates match state-of-the-art results that were recently obtained for least squares support vector machines and for linear regularization operators.

研究の動機と目的

カーネル共役勾配回帰の統計的収束挙動を、早期停止正則化を用いて分析すること。
既知の最小最大下界に一致する学習率を確立すること。
真の回帰関数が再生核ヒルベルト空間に属しない場合の収束保証を拡張すること。
本手法が、最小二乗サポートベクターマシンや線形正則化作用素と同等の最先端のレートを達成できることを示すこと。
データに依存するクリロフ部分空間における共役勾配の使用に理論的根拠を与えること。

提案手法

本手法は、データに依存するクリロフ部分空間 $\mathcal{K}_m(\mathbf{Y}, K_n) = \text{span}\{\mathbf{Y}, K_n\mathbf{Y}, \dots, K_n^{m-1}\mathbf{Y}\}$ において、カーネル最小二乗問題を共役勾配（CG）反復で解く。
正則化は、CG反復回数 $m$ を早期停止することで実現され、$m$ はモデル選択パラメータとして機能する。
CG解 $\alpha_m$ は、$K_n$ との行列-ベクトル積を繰り返し用いて反復的に計算され、カーネル行列の明示的逆行列を避ける。
理論的分析は、特にヒルベルト＝シュミットノルムと固有値の減衰に関する、確率的作用素の不等式と分散バウンドに依存する。
本稿では、解が $\alpha = F_\lambda(K_n)\mathbf{Y}$ と表現される一般化正則化フレームワークを用いる。ここで $F_\lambda$ は正則化逆関数である。
誤った設定では、追加のラベルなしデータを用いて、実効的カーネル行列を推定することで、緩い仮定のもとでレート一致を可能にする。

実験結果

リサーチクエスチョン

RQ1カーネル共役勾配回帰における早期停止正則化で達成可能な最適な学習率は何か？
RQ2これらのレートは、先行研究で得られた最小最大下界とどのように比較されるか？
RQ3真の回帰関数が再生核ヒルベルト空間に属しない場合でも、本手法は最適なレートを達成できるか？
RQ4カーネル空間におけるデータの内因的次元が、収束速度に与える影響は何か？
RQ5ラベルなしデータの可用性が、誤った設定における収束速度に与える影響は何か？

主な発見

真の回帰関数が再生核ヒルベルト空間に属する場合、本稿は既知の最小最大下界に対数要因を除いて一致する学習レートを確立する。
誤った設定（$f^*$ が $\mathcal{H}$ に属しない）では、追加のラベルなしデータが利用可能であれば、同様の収束速度が達成される。
収束速度は、カーネルリッジ回帰や最小二乗サポートベクターマシンの最先端の結果と一致するという意味で最適であることが示された。
確率的作用素の分散不等式と、累乗関数に対する作用素ノルム不等式の組み合わせを用いて、理論的保証が導出された。
早期停止が共役勾配反復において有効な正則化機構であることが、強い統計的一貫性とともに確認された。
導出されたレートは、2つの主要要因に依存する：ターゲット関数の滑らかさ（正則性）と、カーネル誘導特徴空間におけるデータの内因的次元。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。