QUICK REVIEW

[論文レビュー] Nonparametric Bandits with Covariates

Philippe Rigollet, Assaf Zeevi|arXiv (Cornell University)|Mar 8, 2010

Advanced Bandit Algorithms Research参考文献 14被引用数 75

ひとこと要約

本稿は、観測可能な共変量に依存する報酬を想定する非パラメトリックなバンディット枠組みを導入し、最小上限下界の対数的要因の範囲内で達成可能なレジーットを実現する方策を提案する。グローバルな問題を文脈に特化したバンディット部分問題に局所化し、滑らかさの仮定を用いた非パラメトリック回帰推定を活用することで、応答関数の滑らかさと共変量の次元に依存する最適なレジーットレートを確立する。

ABSTRACT

We consider a bandit problem which involves sequential sampling from two populations (arms). Each arm produces a noisy reward realization which depends on an observable random covariate. The goal is to maximize cumulative expected reward. We derive general lower bounds on the performance of any admissible policy, and develop an algorithm whose performance achieves the order of said lower bound up to logarithmic terms. This is done by decomposing the global problem into suitably "localized" bandit problems. Proofs blend ideas from nonparametric statistics and traditional methods used in the bandit literature.

研究の動機と目的

報酬がi.i.d.であると仮定する従来のバンディットモデルの制限を克服し、報酬分布に影響を与える観測可能な共変量を組み込むこと。
共変量を伴う非パラメトリック設定において、理論的な最小上限下界に近いレジーット性能を達成する方策を開発すること。
応答関数の滑らかさと共変量の次元という観点から、非パラメトリックバンディット問題の複雑さを特徴づけること。
最小上限下界を確立し、それをほぼ達成する方策を構築することで、非パラメトリック統計とバンディット理論を橋渡しすること。

提案手法

グローバルなバンディット問題を共変量の値に基づいて局所化されたバンディット問題に分解し、各文脈を個別の部分問題として扱う。
各アームの平均報酬関数をモデル化するために非パラメトリック回帰推定量を用い、滑らかさの程度β（Hölder連続性）を仮定する。
UCBにインspiredされた信頼区間ベースの方策を設計するが、共変量を伴う非パラメトリック設定に適合させ、局所的近傍における探索と活用のバランスをとる。
情報理論的道具を用いた解析により、レジーットに対する最小上限下界を導出する。具体的には、Kullback-Leibler発散と測度変換の議論を用いる。
下界は、二点検定のアプローチを用い、バイナリーシーケンスでインデックス化された関数族に対して、滑らかさと分離性の性質を活用して導出される。
最終的な方策は、導出された下界の対数的要因の範囲内でレジーットを達成し、そのレートは滑らかさβと共変量次元dに依存する。

実験結果

リサーチクエスチョン

RQ1応答関数に滑らかさの仮定をおく非パラメトリックバンディットにおける、根本的な限界（最小上限レジーット）は何か？
RQ2古典的なi.i.d.バンディット設定と比較して、共変量の導入が最適なレジーットレートに与える影響は何か？
RQ3この非パラメトリック設定において、最小上限下界に近いレジーットを達成する方策を構築可能か？
RQ4応答関数の滑らかさと共変量の次元性が、問題の複雑さを決定づける役割を果たすか？
RQ5共変量の存在下で、バンディット問題を効果的に局所化することで、最適なパフォーマンスを達成できるか？

主な発見

共変量を伴う非パラメトリックバンディットの最小上限レジーットは、あるα > 0に対して、n^(1 - αβ/(2β + d)) のオーダーの下界で抑えられる。ここでβは滑らかさパラメータ、dは共変量次元である。
提案された方策は、この下界の対数的要因の範囲内でレジーットを達成し、log n 項の範囲で漸近的に最適性を示す。
滑らかさβと次元dが固定されているとき、最適なレジーットレートはn^(2β/(2β + d)) に比例し、より高い滑らかさまたは低い次元がパフォーマンス向上に寄与することを示す。
下界は、制御されたHölderノルムと分離性を持つ関数族に対して、二点検定のアプローチを用いて導出され、アームを区別するには関連する共変量領域での十分なサンプリングが必要であることが示された。
解析により、特定の共変量領域で劣悪なアームがサンプリングされる回数は、局所的Kullback-Leibler発散と密接に関連しており、これがアームの区別難易度を支配することが明らかになった。
最終的なレジーットバウンドは、対数的要因を除いてタイトであり、部分情報設定であるにもかかわらず、AudibertとTsybakov（2007）が得た完全情報最小上限レートと一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。