[論文レビュー] Gaussian Process Optimization with Adaptive Sketching: Scalable and No Regret
tldr: BKBを導入し、適応的インデューシングポイントを介したリッジレバレージスコアサンプリングによって GP-UCB を近似する予算付きカーネルバンドットアルゴリズム。実行時間とメモリを大幅に削減しつつ、ほぼ最適な後悔を達成。
Gaussian processes (GP) are a well studied Bayesian approach for the optimization of black-box functions. Despite their effectiveness in simple problems, GP-based algorithms hardly scale to high-dimensional functions, as their per-iteration time and space cost is at least quadratic in the number of dimensions $d$ and iterations $t$. Given a set of $A$ alternatives to choose from, the overall runtime $O(t^3A)$ is prohibitive. In this paper we introduce BKB (budgeted kernelized bandit), a new approximate GP algorithm for optimization under bandit feedback that achieves near-optimal regret (and hence near-optimal convergence rate) with near-constant per-iteration complexity and remarkably no assumption on the input space or covariance of the GP. We combine a kernelized linear bandit algorithm (GP-UCB) with randomized matrix sketching based on leverage score sampling, and we prove that randomly sampling inducing points based on their posterior variance gives an accurate low-rank approximation of the GP, preserving variance estimates and confidence intervals. As a consequence, BKB does not suffer from variance starvation, an important problem faced by many previous sparse GP approximations. Moreover, we show that our procedure selects at most $\ ilde{O}(d_{eff})$ points, where $d_{eff}$ is the effective dimension of the explored space, which is typically much smaller than both $d$ and $t$. This greatly reduces the dimensionality of the problem, thus leading to a $O(TAd_{eff}^2)$ runtime and $O(A d_{eff})$ space complexity.
研究の動機と目的
- GPベースの手法が計算上重くなるスケーラブルなブラックボックス最適化を動機づける。
- 不確実性定量化と後悔保証を保持する疎なGP/線形バンドット近似を開発する。
- 問題の実効次元にスケールする適応的インデューシングポイント選択機構を提供する。
- 1回の反復ごとの計算量を大幅に削減しつつ、ほぼ最適な後悔を保証する。
提案手法
- GP-UCBと Nyström ベースの Nyström 埋め込みを、サイズ m の誘導点集合 S_t を用いて組み合わせる。
- 埋め込みを用いて近似的後方分布の平均と分散を定義する(60μ_t、60σ_t^2、60u_t の式)。
- 後方分散に結びつくリッジレバレージスコア(RLS)サンプリングを用いてオンラインで誘導点を選択する;60σ_t^2 に比例する確率と可調整パラメータ overline{q} を用いて点を含める。
- 60σ_t^2 の分散推定量が分散飢餓を回避し、RLS と関連する DTC スタイルの分散であることを示す。
- 理論保証を提供する:正確な 60σ_t^2 に対する境界と、実効次元 d_eff に関する |S_t| の上限を与える。
- GP-UCB に匹敵する後悔境界を定数倍の差で導出し、計算量は per-step が O(T A d_eff^2)、空間が O(A d_eff) となる。
実験結果
リサーチクエスチョン
- RQ1GPベースのバンドット最適化を高次元・長期的なホライズンにスケールさせても、後悔保証を犠牲にしないことは可能か。
- RQ2誘導点ベースの疎近似は正確な分散推定と信頼区間を保持して分散飢餓を回避できるか。
- RQ3探索空間の実効次元を反映するように誘導点集合を適応的に選択すべきか。
- RQ4GP-UCB を適応的スケッチングベースのアプローチに置換した場合の計算・メモリ複雑度の改善は何か。
- RQ5提案手法はバンディットフィードバックの下で、厳密な GP-UCB に近い後悔境界を達成するか。
主な発見
- BKB は標準的な仮定の下で GP-UCB に匹敵するほぼ最適な後悔を達成する。
- 適応的インデューシングポイントを用いた Nyström 埋め込みにより、1ステップの実行時間は O(T A d_eff^2) で、空間は O(A d_eff)。
- 後方分布の分散に基づくリッジレバレージスコアサンプリングによって選択されたインデューシングポイントは、ほぼ正確な GP 後方分布を高い確率で近似する。
- 分散飢餓を回避するため、分散推定を真の後方分散の一定の因子内に保つ。
- インデューシングポイント集合のサイズ |S_t| は実効次元 d_eff にスケールし、問題の難易度に連動した適応的複雑さを提供する。
- 理論結果は σ_t^2(d)/α ≤ ~σ_t^2(d) ≤ α σ_t^2(d) を満たし、α は選択したパラメータに依存し、後悔 R_T は d_eff と T の関数として境界付けられる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。