QUICK REVIEW

[論文レビュー] Contextual Bandits with Similarity Information

Aleksandrs Slivkins|arXiv (Cornell University)|Jul 23, 2009

Advanced Bandit Algorithms Research参考文献 53被引用数 255

ひとこと要約

本稿では、報酬差が距離関数によって制限される類似性情報を持つ文脈的バンディットにおける、適応的パーティショニングアルゴリズムを提案する。報酬が高く、トラフィックが多い領域でのパーティショニングの細分化により、最悪ケース性能を損なわず、ほぼ最適なレグレットバウンドを達成する。これは、リプシッツ連続報酬を持つ構造的バンディット学習における主要な課題を解決する。

ABSTRACT

In a multi-armed bandit (MAB) problem, an online algorithm makes a sequence of choices. In each round it chooses from a time-invariant set of alternatives and receives the payoff associated with this alternative. While the case of small strategy sets is by now well-understood, a lot of recent work has focused on MAB problems with exponentially or infinitely large strategy sets, where one needs to assume extra structure in order to make the problem tractable. In particular, recent literature considered information on similarity between arms. We consider similarity information in the setting of "contextual bandits", a natural extension of the basic MAB problem where before each round an algorithm is given the "context" -- a hint about the payoffs in this round. Contextual bandits are directly motivated by placing advertisements on webpages, one of the crucial problems in sponsored search. A particularly simple way to represent similarity information in the contextual bandit setting is via a "similarity distance" between the context-arm pairs which gives an upper bound on the difference between the respective expected payoffs. Prior work on contextual bandits with similarity uses "uniform" partitions of the similarity space, which is potentially wasteful. We design more efficient algorithms that are based on adaptive partitions adjusted to "popular" context and "high-payoff" arms.

研究の動機と目的

文脈-アームペア間の類似性情報を活用して、巨大または無限のアーム集合を有する文脈的バンディットの課題に対処する。
報酬および文脈分布の構造を無視する均一パーティショニング手法の限界を克服する。
高い報酬と高い文脈頻度を示す領域において、パーティショニングを適応的に細分化することで、良性インスタンスにおける性能を向上させるアルゴリズムを設計する。
最悪ケースのレグレット保証を維持しつつ、有利な問題インスタンスにおいて性能を向上させる。
報酬構造ではなく、文脈の到着パターンに応じてパーティショニングを適応させる手法により、敵対的報酬設定へのフレームワークの拡張を図る。

提案手法

報酬差が距離によって制限される（リプシッツ連続性）メトリック空間を用いて、文脈-アームペア間の類似性をモデル化する。
期待報酬が高く、文脈頻度が高い領域でパーティショニングを細分化する、適応的パーティショニングを用いる。
異なるスケールの類似性に対応するための別個のパーティショニングを維持し、累積報酬および文脈訪問回数に基づいて細分化をトリガーする。
各スケールにおける有効なパーティション数を、二重次元（doubling dimension）およびメトリックエントロピーを用いてボールカバー技術でバウンドする。
既存の非文脈的バンディットアルゴリズム（例：UCB）を、適応的パーティショニングフレームワーク内に統合し、既存手法の利点を活用する。
スケール依存のしきい値とカバー議論を用いて、各パーティションレベルの寄与を分析することで、レグレットバウンドを導出する。

実験結果

リサーチクエスチョン

RQ1報酬構造の最悪ケース性能を損なわず、類似性情報を持つ文脈的バンディットにおいて、適応的パーティショニングがレグレット性能を向上させることができるか？
RQ2アルゴリズムは、メトリック空間における良性の報酬および文脈到着パターンをどのように活用するか？
RQ3報酬関数が類似性メトリックに関してリプシッツ連続である場合、探索と活用の最適なトレードオフは何か？
RQ4報酬関数が任意に変化する敵対的報酬設定において、適応的パーティショニング手法を拡張できるか？
RQ5類似性情報を持つ文脈的バンディットにおける、レグレットの根本的限界は何か？また、提案手法はそれらにほぼ達しているか？

主な発見

提案された適応的パーティショニングアルゴリズムは、時間不変およびゆっくり変化する報酬関数の両方において、ほぼ最適なレグレットバウンドを達成する。
文脈空間における二重次元が $d_{ ext{X}}$、アーム空間における二重次元が $d_{ ext{Y}}$ であるリプシッツ連続報酬関数に対して、レグレットは $O(T^{(2+d_{ ext{X}})/(4+d_{ ext{X}}+2d_{ ext{Y}})}})$ であり、対数要因を除いて既知の下界と一致する。
高い報酬と高いトラフィック領域でのみパーティショニングを細分化することで、良性インスタンスにおける性能が向上する。
各スケールにおける有効パーティション数を、メトリックエントロピーおよび二重定数を用いたカバー議論によりバウンドすることで、レグレットバウンドが導出される。
敵対的報酬設定では、最悪ケースのレグレットを維持しつつ、文脈到着パターンに適応し、良性の文脈分布下では非線形レグレットを達成する。
分析により、ベースとなるバンディットアルゴリズムの選択にかかわらず、標準的なレグレット保証を満たしていれば、アルゴリズムの性能は安定することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。