QUICK REVIEW

[論文レビュー] Lower Bounds on Regret for Noisy Gaussian Process Bandit Optimization

Jonathan Scarlett, Ilijia Bogunovic|arXiv (Cornell University)|May 31, 2017

Advanced Bandit Algorithms Research被引用数 30

ひとこと要約

本稿は、非ベイズ的設定におけるノイズありガウス過程バンディット最適化について、最初のアルゴリズムに依存しないレギュレート下界を確立した。主に平方指数関数（SE）およびマテرن核関数を対象としている。SE核関数では、単純レギュレートεを達成するにはT = Ω(1/ε² (log 1/ε)^{d/2})ラウンドが必要であり、既存の上界とほぼ一致する。マテルン核関数に対しても類似の下界を示したが、上界との差はより大きい。

ABSTRACT

In this paper, we consider the problem of sequentially optimizing a black-box function $f$ based on noisy samples and bandit feedback. We assume that $f$ is smooth in the sense of having a bounded norm in some reproducing kernel Hilbert space (RKHS), yielding a commonly-considered non-Bayesian form of Gaussian process bandit optimization. We provide algorithm-independent lower bounds on the simple regret, measuring the suboptimality of a single point reported after $T$ rounds, and on the cumulative regret, measuring the sum of regrets over the $T$ chosen points. For the isotropic squared-exponential kernel in $d$ dimensions, we find that an average simple regret of $ε$ requires $T = Ω\big(\frac{1}{ε^2} (\log\frac{1}ε)^{d/2}\big)$, and the average cumulative regret is at least $Ω\big( \sqrt{T(\log T)^{d/2}} \big)$, thus matching existing upper bounds up to the replacement of $d/2$ by $2d+O(1)$ in both cases. For the Matérn-$ν$ kernel, we give analogous bounds of the form $Ω\big( (\frac{1}ε)^{2+d/ν}\big)$ and $Ω\big( T^{\frac{ν+ d}{2ν+ d}} \big)$, and discuss the resulting gaps to the existing upper bounds.

研究の動機と目的

既存の上界と理論的限界の間のギャップを埋めるために、アルゴリズムに依存しない下界を導出すること。
有界なRKHSノルムとノイズあり観測を想定した非ベイズ的設定において、単純レギュレートおよび累積レギュレートの根本的限界を分析すること。
平方指数関数およびマテルン核関数に対する既存の上界がタイトかどうか、あるいは改善可能かどうかを調査すること。
ノイズがGPバンディット最適化におけるレギュレートスケーリングに与える影響、特に高次元設定での影響を調査すること。
ベイズ的設定における未解決問題を特定すること。現在の下界は、ニードルインハイズクの関数と事前分布が不一致であるため、実際の性能を反映していない可能性がある。

提案手法

有界なRKHSノルムを持つ関数クラスに対して、ミニマックス的議論を用いて、ノイズありバンディットフィードバック下で区別が困難なニードルインハイズク関数のクラスを構築する。
ファノの不等式およびピンスカーの不等式を適用し、異なる関数の下での尤度の全変動距離を抑え、期待レギュレートの下界を導出する。
被覆議論を用いてRKHSクラス内での区別可能な関数の数を抑え、最適点を区別するのに必要なサンプル数の下界を導出する。
最終的な点の期待的非最適性と時間経過に伴う非最適性の和を分析することで、単純レギュレートおよび累積レギュレートの両方の下界を導出する。
逆マーカフの不等式を適用することで、高確率レギュレート下界を適応し、定常確率の下でのレギュレートが期待レギュレート下界を上回ることはできないことを示す。
平方指数関数（SE）およびマテルン核関数という2つの広く用いられる核関数を、それぞれのRKHSノルムおよびメトリックエントロピー特性を分析することで扱う。

実験結果

リサーチクエスチョン

RQ1平方指数関数核関数を用いたノイズありガウス過程バンディット最適化における、単純レギュレートの根本的下界は何か？
RQ2非ベイズ的設定における累積レギュレートはどのようにスケーリングするか？また、既存の上界と比較するとどうなるか？
RQ3マテルン核関数に対して、最高の既存上界と新しい下界とのギャップは何か？
RQ4ノイズがGPバンディット最適化におけるレギュレートスケーリングに及ぼす影響はどの程度か？
RQ5SE核関数に対する既存の上界は改善可能か、それともほぼタイトか？

主な発見

d次元における平方指数関数核関数では、単純レギュレートεを達成するための最小ラウンド数TはΩ(1/ε² (log 1/ε)^{d/2})であり、既存の上界とほぼ一致する。
累積レギュレートはΩ(√(T (log T)^{d/2}))で下界が与えられ、最良の既存上界と指数部に2d+O(1)の要因を除き一致する。
マテルン-ν核関数では、単純レギュレートεを達成するためのTの下界はΩ((1/ε)^{2 + d/ν})であり、既存上界とのギャップが大きいことが示された。
マテルン核関数の累積レギュレート下界はΩ(T^{(ν + d)/(2ν + d)})であり、上界のスケーリングよりも厳密に小さいため、改善の余地があることが示唆された。
仮定σ/B = O(√Tがε/Bが十分に小さくなることを保証するため、下界の漸近的性質が妥当であることが確認された。
逆マーカフの不等式を適用することで、高確率レギュレート下界が導出され、定常確率の下でのレギュレートが期待レギュレート下界を上回ることはできないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。