QUICK REVIEW

[論文レビュー] Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles

Dylan J. Foster, Alexander Rakhlin|arXiv (Cornell University)|Feb 12, 2020

Advanced Bandit Algorithms Research被引用数 52

ひとこと要約

本論文は SquareCB を提示する。文脈バンディットからオンライン回帰への普遍的で最適な還元を、回帰オラクルを用いて、realizability のみを仮定したときに、分布仮定を超えずにミニマックス最適なレグレットを達成する。

ABSTRACT

A fundamental challenge in contextual bandits is to develop flexible, general-purpose algorithms with computational requirements no worse than classical supervised learning tasks such as classification and regression. Algorithms based on regression have shown promising empirical success, but theoretical guarantees have remained elusive except in special cases. We provide the first universal and optimal reduction from contextual bandits to online regression. We show how to transform any oracle for online regression with a given value function class into an algorithm for contextual bandits with the induced policy class, with no overhead in runtime or memory requirements. We characterize the minimax rates for contextual bandits with general, potentially nonparametric function classes, and show that our algorithm is minimax optimal whenever the oracle obtains the optimal rate for regression. Compared to previous results, our algorithm requires no distributional assumptions beyond realizability, and works even when contexts are chosen adversarially.

研究の動機と目的

実用的な実行時間とメモリコストで、柔軟で汎用的な文脈バンディットアルゴリズムを開発する。
回帰オラクルを用いて文脈バンディットをオンライン回帰へ還元し、強力なレグレット保証を得る。
豊富な関数クラスに対するミニマックスレートを特徴付け、SquareCB還元の最適性を確立する。
realizability および adversarial Contexts の下で、具体的な関数クラス（linear、kernels、GLMs）に対するエンドツーエンドの保証を提供する。

提案手法

square loss のレグレット保証を備えた online regression oracle (SqAlg) の概念を導入する。
回帰オラクルを用いてスコアギャップに逆比例する確率で行動を選択する還元法 SquareCB を提示する。
高い確率で Reg_CB(T) ≤ C * sqrt(K T * Reg_Sq(T)) を証明し、オラクルのメモリ・実行時間の境界を継承する。
適切な SqAlg および関数クラスの選択に対して SquareCB がミニマックス最適であることを示す。
さまざまな関数クラス（linear、high-dimensional、kernels、GLMs）に対して SquareCB を具体的に適用し、具体的なレグレット保証を導出する。
モデルミススペシフィケーションへの頑健性と大規模なアクション空間への拡張を検討する。

実験結果

リサーチクエスチョン

RQ1realizability の下で、豊富な（潜在的には非パラメトリックな）関数クラスを持つ文脈バンディットのミニマックスレグレットレートはどれか？
RQ2ギャップがある場合、広い関数クラスと大規模なアクション集合に対して RichCBs でほぼ対数オーダーのレグレットを達成できるか？
RQ3realizability を超える分布仮定なしで、文脈バンディットをオンライン回帰へ還元し、なおかつ計算効率を維持するには？
RQ4実用的な関数クラス（linear、kernels、GLMs）におけるレグレットと計算効率の観点から SquareCB の性能はどうか？

主な発見

SquareCB は online regression のレグレットを contextual bandit のレグレットに変換し、Reg_CB(T) = O( sqrt(K T Reg_Sq(T)) )、オラクルの実行時間とメモリを継承する。
SquareCB は universal であり、任意の関数クラスに対してミニマックスレートを達成する SqAlg が存在し、定数と K 依存性の範囲で下限と一致する。
有限な F に対して、SqAlg が Reg_Sq(T) = O(log|F|) を持つ場合、SquareCB は Reg_CB(T) ≤ O( sqrt(K T log|F|) ) を与える。
具体的な含意は realizability の下で linear、high-dimensional linear、kernels、GLMs において有利なレグレットを示し、1回あたりのコストもスケーラブルである。
実現可能性が近似的な場合でも、体系はミススペシフィケーションに対して頑健で、滑らかな劣化を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。