QUICK REVIEW

[論文レビュー] Model Selection for Contextual Bandits

Dylan J. Foster, Akshay Krishnamurthy|arXiv (Cornell University)|Dec 1, 2019

Advanced Bandit Algorithms Research被引用数 30

ひとこと要約

この論文は、最適方策次元 $d_{m^\star}$ の事前知識がなくとも、$˜{O}(T^{2/3}d^{1/3}_{m^\star})$ のレグレットを達成する線形文脈的バンディットのモデル選択アルゴリズムを導入している。これは、標準的なパrameter学習よりも高速に収束する新しいギャップ推定器を用いる。本研究は、部分的フィードバックを伴う文脈的バンディットにおける非自明なモデル選択結果として初めてのものである。

ABSTRACT

We introduce the problem of model selection for contextual bandits, where a learner must adapt to the complexity of the optimal policy while balancing exploration and exploitation. Our main result is a new model selection guarantee for linear contextual bandits. We work in the stochastic realizable setting with a sequence of nested linear policy classes of dimension $d_1 < d_2 < \ldots$, where the $m^\star$-th class contains the optimal policy, and we design an algorithm that achieves $ ilde{O}l(T^{2/3}d^{1/3}_{m^\star})$ regret with no prior knowledge of the optimal dimension $d_{m^\star}$. The algorithm also achieves regret $ ilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$, which is optimal for $d_{m^{\star}}\geq{}\sqrt{T}$. This is the first model selection result for contextual bandits with non-vacuous regret for all values of $d_{m^\star}$, and to the best of our knowledge is the first positive result of this type for any online learning setting with partial information. The core of the algorithm is a new estimator for the gap in the best loss achievable by two linear policy classes, which we show admits a convergence rate faster than the rate required to learn the parameters for either class.

研究の動機と目的

最適方策の複雑さが未知である文脈的バンディットにおけるモデル選択を扱う。
その次元の事前知識がなくても、真の複雑さに適応するアルゴリズムを設計する。
最適次元 $d_{m^\star}$ のすべての値に対して非自明なレグレットバウンドを達成する。
部分的情報を持つ任意のオンライン学習設定において、初めてのモデル選択保証を提供する。

提案手法

アルゴリズムは、次第に増加する次元 $d_1 < d_2 < \ldots$ を持つネストされた線形方策クラスの確率的実現可能設定で動作する。
連続する方策クラス間の最小達成可能損失のギャップを推定するための新しい推定器を用いる。
このギャップ推定器は、いずれの方策クラスのパrameterを学習するのにも必要なレートよりも高速に収束する。
探索と活用のバランスを取るために、推定されたギャップに基づいて方策クラスを動的に選択する。
最適次元 $d_{m^\star}$ を事前に知らない状態で、$\tilde{O}(T^{2/3}d^{1/3}_{m^\star})$ のレグレットを達成する。$d_{m^\star} \geq \sqrt{T}$ の場合、$\tilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$ のレグレットを達成する。
すべての $d_{m^\star}$ の値に対して非自明なレグレットを保証する。

実験結果

リサーチクエスチョン

RQ1最適方策次元の事前知識がなくても、文脈的バンディットにおけるモデル選択が可能か？
RQ2複雑さが未知のネストされた線形クラスのシーケンスに最適方策が存在する場合、どのようなレグレットバウンドが達成可能か？
RQ3すべての $d_{m^\star}$ の値に対して非自明なレグレットを達成するモデル選択アルゴリズムを設計可能か？
RQ4この設定において、方策クラス間のギャップ推定器は、パrameter学習推定器よりも高速に収束可能か？
RQ5提案手法は、$d_{m^\star} \geq \sqrt{T}$ のような大規模な $d_{m^\star}$ に対しても最適レグレットを達成できるか？

主な発見

アルゴリズムは、最適次元 $d_{m^\star}$ の事前知識がなくても、$\tilde{O}(T^{2/3}d^{1/3}_{m^\star})$ のレグレットを達成する。
$d_{m^\star} \geq \sqrt{T}$ の場合、レグレットバウンド $\tilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$ は最適である。
提案されたギャップ推定器は、方策クラスのパrameterを学習するのに必要なレートよりも高速に収束する。
これは、すべての $d_{m^\star}$ の値に対して非自明なレグレットを達成する文脈的バンディットにおける最初のモデル選択結果である。
また、部分的フィードバックを伴う任意のオンライン学習設定において、初めての肯定的なモデル選択保証である。
未知の方策複雑性を伴う線形文脈的バンディットにおける適応的学習の新しいベンチマークを確立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。