[論文レビュー] Preconditioning Kernel Matrices
本稿では、核マシンにおける前処理付き共役勾配(PCG)法を提案する。低ランクおよび構造的近似を用いた核行列の前処理を用いることで収束を高速化する。この手法により、O(n²)の計算量でガウス過程の正確な推論が可能となり、最先端の近似手法やコレスキー分解を上回る精度とスケーラビリティを達成する。
The computational and storage complexity of kernel machines presents the primary barrier to their scaling to large, modern, datasets. A common way to tackle the scalability issue is to use the conjugate gradient algorithm, which relieves the constraints on both storage (the kernel matrix need not be stored) and computation (both stochastic gradients and parallelization can be used). Even so, conjugate gradient is not without its own issues: the conditioning of kernel matrices is often such that conjugate gradients will have poor convergence in practice. Preconditioning is a common approach to alleviating this issue. Here we propose preconditioned conjugate gradients for kernel machines, and develop a broad range of preconditioners particularly useful for kernel matrices. We describe a scalable approach to both solving kernel machines and learning their hyperparameters. We show this approach is exact in the limit of iterations and outperforms state-of-the-art approximations for a given computational budget.
研究の動機と目的
- 大規模データセットにおける核マシンの計算コストおよび記憶コストの高さに対処する。
- 核行列の条件数が悪いことが原因で、核法における共役勾配(CG)の収束が遅い問題を克服する。
- 核ハイパーパrameterの学習と予測を行うスケーラブルで正確なフレームワークを構築する。
- 完全な核行列を格納しないで、反復的手法(CG/PCG)を用いることを可能にする。分散処理やオンザフライ計算をサポートする。
提案手法
- 低ランクおよび構造的近似などの幅広い核行列近似を、核行列の条件数を改善するための前処理として適用する。
- これらの前処理を用いた反復的共役勾配ソルバーを用い、核行列(グラム行列)を含む線形方程式系を、K やその因子を格納せずに解く。
- 任意の因数分解可能な尤度に対して、対数周辺尤度の不偏な確率的勾配推定器を開発する。
- L-BFGSを用いた最適化パイプラインにPCGを統合し、ランダムベクトルを用いたトレース推定を用いて、ハイパーパrameterの最適化を実現する。
- 完全な核行列を格納しないフレームワークを実装し、反復回数の極限において正確な推論を可能にするとともに、オンザフライまたは分散処理によるスケーラブルな計算をサポートする。
- 前処理を活用して反復ソルバーの収束を加速し、正確な解を得るための反復回数を削減する。
実験結果
リサーチクエスチョン
- RQ1前処理付き共役勾配法は、ガウス過程における核行列系に対して、標準的なCG法よりも高速に収束するか?
- RQ2低ランクおよび構造的近似による核行列の近似は、反復ソルバーの前処理としてどれほど有効か?
- RQ3PCGを用いた核ハイパーパrameterの最適化は、最先端の近似手法に比べ、精度および計算効率の面で優れているか?
- RQ4完全な核行列を格納しないで、PCGを用いてガウス過程の正確な推論を実現できるか?大規模データセットへのスケーラビリティを実現できるか?
- RQ5中程度のサイズのデータセットにおいて、PCGの性能は正確なコレスキー分解と比べて精度および実行時間の面でどう異なるか?
主な発見
- 適切な前処理を用いたPCGは、反復回数の極限において、近似手法とは異なりガウス過程の正確な推論を達成する。
- 提案されたPCGフレームワークは、与えられた計算予算において、最先端の近似手法(例:FITC, PITC, VAR)を上回る精度と計算効率を達成する。
- 核行列を格納可能なデータセットでは、PCGはコレスキー分解と同等の性能を発揮し、前処理が有効な場合には収束が速い。
- 確率的勾配と不偏なトレース推定を用いることで、回帰および分類の両方に対応したスケーラブルな核ハイパーパrameter最適化が可能になる。
- PCGは完全な核行列の格納を必要としないため、大規模な環境における分散処理やオンザフライ計算に適している。
- 実験的評価により、前処理を施したPCGは収束に必要な反復回数を削減し、標準的なCGおよび近似手法に比べて実行時間の面で優れたパフォーマンスを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。