QUICK REVIEW

[論文レビュー] Multi-Armed Bandits in Metric Spaces

Robert Kleinberg, Aleksandrs Slivkins|ArXiv.org|Sep 29, 2008

Advanced Bandit Algorithms Research参考文献 12被引用数 44

ひとこと要約

本稿は、戦略空間上の距離関数に関してリプシッツ連続な報酬関数をもつ、距離空間におけるリプシッツマルチアームバンディット（MAB）問題を導入する。本稿では、高い報酬ポテンシャルを有する領域を適応的に探索する「ズーミング・アルゴリズム」を提案し、レグレットの上限が距離空間の二重次元（doubling dimension）および最適戦略集合の構造に依存することを示し、良好な報酬関数に対してはタイトな性能保証を達成する。

ABSTRACT

In a multi-armed bandit problem, an online algorithm chooses from a set of strategies in a sequence of trials so as to maximize the total payoff of the chosen strategies. While the performance of bandit algorithms with a small finite strategy set is quite well understood, bandit problems with large strategy sets are still a topic of very active investigation, motivated by practical applications such as online auctions and web advertisement. The goal of such research is to identify broad and natural classes of strategy sets and payoff functions which enable the design of efficient solutions. In this work we study a very general setting for the multi-armed bandit problem in which the strategies form a metric space, and the payoff function satisfies a Lipschitz condition with respect to the metric. We refer to this problem as the "Lipschitz MAB problem". We present a complete solution for the multi-armed problem in this setting. That is, for every metric space (L,X) we define an isometry invariant which bounds from below the performance of Lipschitz MAB algorithms for X, and we present an algorithm which comes arbitrarily close to meeting this bound. Furthermore, our technique gives even better results for benign payoff functions.

研究の動機と目的

オンライン広告やオークションなどの実用的応用において、巨大または無限の戦略集合を有するオンライン学習の課題に対処すること。
戦略間の距離に応じて報酬がリプシッツ連続となる距離空間を用いて、構造的報酬関数をモデル化すること。
最適戦略の位置に関する事前知識がなくても、一般の距離空間において近似的に最適なレグレットを達成できる効率的な学習アルゴリズムを設計すること。
距離空間の内在的な幾何的性質（例えば、二重次元やカバレッジ次元）を用いて、バンディットアルゴリズムの性能を定量化すること。
サブ多項式レグレットを維持したまま、重尾分布を有する報酬分布へも結果を拡張すること。

提案手法

本稿は、報酬関数μが距離Lに関して1-リプシッツ連続である距離空間（L, X）上でのリプシッツMAB問題を定式化する。
最適集合Sおよびギャップ関数Δ(u) = L(u, S)の形状に相対する戦略空間の内在的複雑性を捉える「c-ズーミング次元」の概念を導入する。
ズーミング・アルゴリズムは、信頼区間に基づき、推定報酬が高く不確実性が大きい領域を、距離構造に従って適応的に選択する。
直径が制御された戦略空間の階層的分割を用い、高い報酬ポテンシャルと低い不確実性を有する領域に焦点を当てた探索を実施する。
重尾分布を扱うために非一様ベリー・エッセーン定理を適用し、信頼区間推定に耐性を持つ尾確率の境界を導出する。
レグレット解析は、ギャップ関数Δ(u)の形状とc-ズーミング次元を用いて、非最適戦略が引かれる回数を抑え込むことに依存する。

実験結果

リサーチクエスチョン

RQ1報酬がリプシッツ連続である距離空間において、非可算な多数の戦略を有する状況で、効率的なオンライン学習が可能か？
RQ2距離空間のどの幾何的性質が、リプシッツMAB問題におけるレグレットの根本的限界を決定づけるか？
RQ3バンディットアルゴリズムの性能は、最適戦略集合の構造およびギャップ関数の減衰にどのように依存するか？
RQ4重尾分布を有する報酬に対して、アルゴリズムは近似的に最適なレグレットを達成できるか？
RQ5二重次元およびカバレッジ次元は、戦略空間の複雑性を特徴付ける上で果たす役割は何か？

主な発見

ズーミング・アルゴリズムは、O(t^{1 - 1/(1 + αd)})のレグレットで抑えられ、ここでdはターゲット集合Sのcカバレッジ次元、αは形状関数f(x) = x^{1/α}のパラメータである。
距離空間の二重次元d*に対して、レグレットは(c 2^{O(d*)} log²t) t^{1 - 1/(1 + αd)}で抑えられ、空間の幾何的複雑性に依存することが示された。
ターゲット集合Sが距離空間の低次元部分集合である場合、環境空間が高次元であっても、レグレットはtに関して部分多項式的に増加する。
3次のモーメントが有界な重尾報酬に対して、アルゴリズムはR_A(t) ≤ a(t) t^{1 - 1/(3d + 6)}のレグレットを達成し、a(t) = O((cρ log t)^{1/(3d + 6)})である。非ガウス型ノイズに対してもロバストであることが示された。
レグレットの上限は対数要因を除きタイトであり、MaxMinCOV(X)不変量によって定義される理論的下界に、任意に近づくことができる。
戦略集合Yが最適集合Sを含まない場合でも、YからSまでの距離L(Y, S)を用いて拡張されたターゲット集合B(S, r)（r = L(Y, S)）を定義することで、結果は一般化可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。