QUICK REVIEW

[論文レビュー] BISTRO: An Efficient Relaxation-Based Method for Contextual Bandits

Alexander Rakhlin, Karthik Sridharan|arXiv (Cornell University)|Feb 6, 2016

Advanced Bandit Algorithms Research参考文献 14被引用数 54

ひとこと要約

BISTRO は、各ラウンドで d 回の経験的リスク最小化（ERM）オракル呼び出しのみを必要とし、報酬が敵対的かつ変化する状況下でも低レグレットを達成する、計算的に効率的なリラクゼーションベースのアルゴリズムである。i.i.d. なラベルなしの文脈を用いることで計算を簡素化し、ポリシークラスのサイズに依存しないレグレットバウンドを維持する。理論的保証は、全情報学習が効率的である場合、敵対的設定へも拡張可能である。

ABSTRACT

We present efficient algorithms for the problem of contextual bandits with i.i.d. covariates, an arbitrary sequence of rewards, and an arbitrary class of policies. Our algorithm BISTRO requires d calls to the empirical risk minimization (ERM) oracle per round, where d is the number of actions. The method uses unlabeled data to make the problem computationally simple. When the ERM problem itself is computationally hard, we extend the approach by employing multiplicative approximation algorithms for the ERM. The integrality gap of the relaxation only enters in the regret bound rather than the benchmark. Finally, we show that the adversarial version of the contextual bandit problem is learnable (and efficient) whenever the full-information supervised online learning problem has a non-trivial regret guarantee (and efficient).

研究の動機と目的

任意のポリシークラスに対して、計算的に効率的なレグレット最小化手法の開発。
ラベルなしの i.i.d. データを活用することで、文脈的バンディットにおける計算オーバーヘッドを低減し、学習問題を簡素化する。
ポリシークラスのサイズに依存せず、ERM オラクルの複雑さにのみ依存するレグレットバウンドの確立。
効率的なオンライン学習の適用範囲を、i.i.d. と敵対的の混合報酬設定へ拡張する。
全情報問題に非自明なレグレット保証が存在する限り、敵対的文脈的バンディット問題が効率的に学習可能であることを示すこと。

提案手法

BISTRO は、ラベルなしの i.i.d. 文脈を用いて、文脈的バンディット問題を扱いやすい最適化問題に変換するリラクゼーションベースのアプローチを採用する。
部分的情報リラクゼーションフレームワークを用い、レグレットの上界を条件付き期待値およびコストベクトル上の上界の列によって上界付ける。
各ラウンドで d 回の ERM オラクル呼び出しを行う。ここで d は行動数であり、ポリシークラスのサイズとは無関係である。
情報ギャップを捉えるリラクゼーション項 Rel(I₁:t) を導入し、反復的更新によって最小化する。
計算的に難しい ERM 問題に対しては、乗法的近似アルゴリズムを用い、整数性ギャップはレグレットバウンドにのみ影響し、ベンチマークに影響しない。
報酬系列が敵対的または非確率的プロセスであっても、i.i.d. 文脈の仮定のもとで、アルゴリズムは頑健である。

実験結果

リサーチクエスチョン

RQ1ポリシークラスのサイズに依存せず、各ラウンドで d 回の ERM オラクル呼び出しのみを必要とする文脈的バンディットアルゴリズムを設計可能か？
RQ2ラベルなしの i.i.d. データをどのように活用することで、文脈的バンディット学習の計算複雑度を簡素化できるか？
RQ3リラクゼーションベースの手法は、i.i.d. と敵対的の混合報酬設定でも低レグレットを達成可能か？
RQ4全情報オンライン学習の計算効率と、対応する文脈的バンディット問題の効率との関係は何か？
RQ5リラクゼーションの整数性ギャップをレグレットバウンドにのみ分離可能か、ベンチマークに影響を与えないか？

主な発見

BISTRO は、ポリシークラスのサイズに依存せず、ERM オラクルの複雑さとリラクゼーションの整数性ギャップにのみ依存するレグレットバウンドを達成する。
アルゴリズムは各ラウンドで d 回の ERM オラクル呼び出しのみを必要とし、大規模なポリシークラスに対しても非常にスケーラブルである。
全情報問題に非自明なレグレット保証が存在する限り、報酬が敵対的に変化する状況下でもレグレットバウンドは成立する。
BISTRO の時間計算量は、対応する全情報オンライン学習手順と同一であり、計算効率を保証する。
トランスductive設定（すべての文脈が事前に利用可能）においても、この手法は有効である。
解析から、q′ₜ を qₜ から分離することでレグレットバウンドに余分なゆるみが生じることを示しており、より緊密な解析の余地があることが示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。