QUICK REVIEW

[論文レビュー] Lipschitz Bandits: Regret Lower Bounds and Optimal Algorithms

Stefan Magureanu, Richard Combes|arXiv (Cornell University)|May 19, 2014

Advanced Bandit Algorithms Research被引用数 62

ひとこと要約

本稿では、期待報酬がリーマン連続関数である確率的マルチアームバンディット問題に対して、漸近的に最適なアルゴリズムであるOSLB（Optimal Sampling for Lipschitz Bandits）を提案する。問題固有のレギュレート下界を導出し、OSLBがこの下界と一致することを証明するとともに、計算量を低減するためのCKL-UCBを提案。CKL-UCBは、重み付きKLダイバージェンスの新しい集中不等式を用いて、構造的バンディット設定におけるタイトな信頼区間を実現する。

ABSTRACT

We consider stochastic multi-armed bandit problems where the expected reward is a Lipschitz function of the arm, and where the set of arms is either discrete or continuous. For discrete Lipschitz bandits, we derive asymptotic problem specific lower bounds for the regret satisfied by any algorithm, and propose OSLB and CKL-UCB, two algorithms that efficiently exploit the Lipschitz structure of the problem. In fact, we prove that OSLB is asymptotically optimal, as its asymptotic regret matches the lower bound. The regret analysis of our algorithms relies on a new concentration inequality for weighted sums of KL divergences between the empirical distributions of rewards and their true distributions. For continuous Lipschitz bandits, we propose to first discretize the action space, and then apply OSLB or CKL-UCB, algorithms that provably exploit the structure efficiently. This approach is shown, through numerical experiments, to significantly outperform existing algorithms that directly deal with the continuous set of arms. Finally the results and algorithms are extended to contextual bandits with similarities.

研究の動機と目的

離散的リーマンバンディットにおける、期待報酬がアームの関数としてリーマン連続である場合の、漸近的で問題固有のレギュレート下界を確立すること。
導出されたレギュレート下界と一致するように設計された、OSLBと呼ばれるアルゴリズムを提案し、その漸近的最適性を分析すること。
計算コストを低減しつつ、構造的探索を維持する強力な性能を発揮するCKL-UCBを、OSLBの計算効率の良い代替手段として開発すること。
アーム空間の離散化とOSLBまたはCKL-UCBの適用により、連続的リーマンバンディットにフレームワークを拡張し、直接的な連続処理手法よりも優れた性能を示すこと。
類似性構造を有する文脈的バンディット問題にまで一般化し、提案されたアルゴリズムの適用範囲を拡大すること。

提案手法

真の報酬構造とリーマン連続性に基づき、離散的リーマンバンディットにおける問題固有の漸近的レギュレート下界を導出する。
KLダイバージェンスに基づく信頼区間から得られる、サンプリング配分を最適化するための線形計画法を用いたOSLBアルゴリズムを提案する。
経験的報酬分布と真の報酬分布間の重み付きKLダイバージェンスの和に対する、新規の集中不等式を導入し、構造的バンディット設定におけるタイトな信頼区間を可能にする。
過去の観測によって明らかになるリーマン構造を活用し、アーム空間を離散化した上でOSLBおよびCKL-UCBを連続バンディットに適用する。
新規の集中不等式を用いた有限時間レギュレート解析により、OSLBおよびCKL-UCBの性能を上限付け、下界への収束を示す。
文脈とアームの類似性をモデル化することで、文脈的バンディットにフレームワークを拡張し、OSLBおよびCKL-UCBの原則をこの文脈に適応させる。

実験結果

リサーチクエスチョン

RQ1離散的リーマンバンディットにおける漸近的レギュレート下界は何か？また、その下界は真の報酬値やリーマン構造にどのように依存するか？
RQ2導出された下界と漸近的に一致するレギュレートを達成するアルゴリズムを設計できるか？
RQ3報酬関数のリーマン構造を、離散的および連続的バンディット問題の両方で効率的に活用できるか？
RQ4OSLBおよびCKL-UCBの有限時間性能保証は何か？また、既存のアルゴリズムと比較してどうなるか？
RQ5提案されたフレームワークを、類似性構造を有する文脈的バンディットに拡張できるか？

主な発見

本稿では、真の報酬値とリーマン構造に明示的に依存する、離散的リーマンバンディットにおける問題固有の漸近的レギュレート下界を確立した。
OSLBは、時間枠が非常に大きい極限において、導出された下界と一致するため、漸近的に最適であることが証明された。
OSLBの有限時間レギュレートは、$ C^{ heta}( heta)(1+ heta) frac{ ext{log}(T)}{ ext{log}(T)} + O( ext{log log}(T)) $ で上限付けられ、$ heta \to 0 $ のとき下界に収束する。
CKL-UCBは、OSLBよりも計算量が低く抑えられつつも、依然としてリーマン構造を効果的に活用する強力な性能を発揮する。
数値実験の結果、連続アーム空間を離散化し、OSLBまたはCKL-UCBを適用することで、直接的に連続アームを扱う手法よりも著しく優れた性能が得られた。
重み付きKLダイバージェンスの和に対する提案された集中不等式は、指数型分布族を含む他の構造的バンディット問題にも応用可能な汎用的ツールである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。