Skip to main content
QUICK REVIEW

[論文レビュー] Batched Kernelized Bandits: Refinements and Extensions

Chenkai Ma, Keqin Chen|arXiv (Cornell University)|Mar 13, 2026
Advanced Bandit Algorithms Research被引用数 0
ひとこと要約

この論文は batched kernelized bandits をバッチ回数を最適化し、適応バッチの下界を確立し、非ロバストな後悔境界に近づけつつ簡易後悔を改善するロバストな変種を導入して、バッチ処理 Kernelized バンディットを洗練・拡張します。

ABSTRACT

In this paper, we consider the problem of black-box optimization with noisy feedback revealed in batches, where the unknown function to optimize has a bounded norm in some Reproducing Kernel Hilbert Space (RKHS). We refer to this as the Batched Kernelized Bandits problem, and refine and extend existing results on regret bounds. For algorithmic upper bounds, (Li and Scarlett, 2022) shows that $B=O(\log\log T)$ batches suffice to attain near-optimal regret, where $T$ is the time horizon and $B$ is the number of batches. We further refine this by (i) finding the optimal number of batches including constant factors (to within $1+o(1)$), and (ii) removing a factor of $B$ in the regret bound. For algorithm-independent lower bounds, noticing that existing results only apply when the batch sizes are fixed in advance, we present novel lower bounds when the batch sizes are chosen adaptively, and show that adaptive batches have essentially same minimax regret scaling as fixed batches. Furthermore, we consider a robust setting where the goal is to choose points for which the function value remains high even after an adversarial perturbation. We present the robust-BPE algorithm, and show that a suitably-defined cumulative regret notion incurs the same bound as the non-robust setting, and derive a simple regret bound significantly below that of previous work.

研究の動機と目的

  • ノイズ付き RKHS 限定関数を用いたバッチ黒箱最適化を調査し、バッチフィードバック下での後悔の低減に焦点を当てる。
  • 正確な定数を用いて最適なバッチ数を決定し、後悔境界の不要な因子を除去する。
  • 適応バッチングの minimax 限界を評価する下界を構築する。
  • 摂動が敵対的に制約されつつ後悔性能を維持するロバスト設定へ拡張する。

提案手法

  • Batched Pure Exploration (BPE) アルゴリズムを一般化したバッチサイズで動作するよう分析・改良する。
  • 拡張されたバッチサイズスケジュール N_i = min{ceil(T^{1-a^i}), T - sum_{j<i} N_j} を用いて成長するバッチ回数の上界を導出し、後悔 O*(sqrt(T gamma_T)) にほぼ最適であることを証明する。
  • 無限アームのカーネル化バンディットに特化した変更測度法による適応バッチの下界を確立する。
  • 探索を摂動ロバストな候補集合へ拡張し累積後悔境界を証明するロバスト-BPE を導入する。
  • SE および Matérn カーネルに対する情報利得 gamma_T の prior 結果と適応バッチ処理を含めた扱いを比較・拡張する。
  • 単純後悔の含意と敵対的摂動に対するロバスト性についての高レベルの考察を提供する。
Figure 1 : Illustration of a class of hard-to-distinguish functions $\mathcal{F}$ , where any $x\in\mathcal{X}$ can be $\epsilon$ -optimal for at most one bump function. This is an “idealized” illustration, with the actual functions used having infinite support but steady decay to zero.
Figure 1 : Illustration of a class of hard-to-distinguish functions $\mathcal{F}$ , where any $x\in\mathcal{X}$ can be $\epsilon$ -optimal for at most one bump function. This is an “idealized” illustration, with the actual functions used having infinite support but steady decay to zero.

実験結果

リサーチクエスチョン

  • RQ1バッチ付き kernelized bandits でほぼ最適な後悔を達成するための最適な(1+o(1) による)バッチ数はどれか。
  • RQ2この設定で適応的バッチサイズは固定バッチより minimax の利得をもたらすか。
  • RQ3後悔性能を犠牲にせずに敵対的にロバストな目的にバッチフレームワークを拡張できるか。
  • RQ4SE および Matérn カーネルについて、精緻化されたバッチサイズスケジュールは後悔境界にどう影響するか。
  • RQ5アルゴリズムに依存しない下界は、バッチサイズを適応的に選んだ場合どうなるか。

主な発見

  • 一般化されたバッチサイズを用いた Batched Pure Exploration は B = O(log log T) のバッチ数でほぼ最適な O*(sqrt(T gamma_T)) の後悔を達成する。
  • refined batch-size schedule N_i = min{ceil(T^{1-a^i}), T - sum_{j<i} N_j} によりバッチ回数がより厳密に定まり、定数正確な B ≈ (log_{1/a} log T)(1+o(1)) を実現する。
  • a ∈ (1/2,1) のとき後悔境界は改善され、Matérn カーネルで a ∈ (ν/(2ν+d), 1/2] のとき gamma_bar_t が適切に挙動する。
  • 適応バッチは下界において B に対する逆多項式の影響のみを生むに過ぎず、適応性は minimax 後悔を著しく改善しない。
  • ロバスト-BPE アルゴリズムは非ロバスト設定と一致する累積後悔を達成し、 prior robust 結果より単純後悔を改善する。
  • 適応バッチの下界は、ほぼ最適な後悔を達成するには B が Ω(log_{1/η} log T) に少なくともスケールする必要があることを示す(η はカーネルパラメータに依存)。
(a) SE kernel.
(a) SE kernel.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。