QUICK REVIEW

[論文レビュー] Contextual Bandit Learning with Predictable Rewards

Alekh Agarwal, Miroslav Dudı́k|arXiv (Cornell University)|Feb 7, 2012

Advanced Bandit Algorithms Research参考文献 10被引用数 46

ひとこと要約

本稿では、既知の関数クラス内に完全な予測子が存在するという実現可能性仮定を活用する、新たな文脈バンディットアルゴリズム「回帰子除去（Regressor Elimination）」を提案する。この仮定のもとで、特定の設定において定数レグレットを達成する。従来の手法とは異なり、$\frac{1}{t}$に依存するきついしきい値を用いて、性能の悪い回帰子を積極的に除外する。実現可能性が、行動数Kに悪く依存する標準的な境界とは対照的に、有利な分布において著しく高速な学習を可能にすることを示している。

ABSTRACT

Contextual bandit learning is a reinforcement learning problem where the learner repeatedly receives a set of features (context), takes an action and receives a reward based on the action and context. We consider this problem under a realizability assumption: there exists a function in a (known) function class, always capable of predicting the expected reward, given the action and context. Under this assumption, we show three things. We present a new algorithm---Regressor Elimination--- with a regret similar to the agnostic setting (i.e. in the absence of realizability assumption). We prove a new lower bound showing no algorithm can achieve superior performance in the worst case even with the realizability assumption. However, we do show that for any set of policies (mapping contexts to actions), there is a distribution over rewards (given context) such that our new algorithm has constant regret unlike the previous approaches.

研究の動機と目的

実現可能性仮定（既知の関数クラス内に完全な予測子が存在する）が、文脈バンディット問題における学習速度の向上をもたらすかどうかを調査すること。
アグノスティック手法よりも優れたレグレット保証を達成できるように、実現可能性を活用する新しいアルゴリズムを開発すること。
実現可能性が、行動数Kに依存しない定数レグレットをもたらす条件を特定すること。
実現可能性そのものでは、最悪ケースにおいても$\tfrac{1}{\tsqrt{K}}$依存性が解消されないことを示す理論的下界を確立すること。
任意の方策クラスに対して、回帰子除去が対数的レグレットを達成する報酬分布が存在することを示すこと。これは、従来の手法とは対照的である。

提案手法

回帰子除去は、候補となる回帰子の集合を維持し、それらの分布を用いて探索と活用のバランスをとる。
各ラウンドで、混合戦略により行動を選択する：高い確率で回帰子をサンプリングし、その方策に従ってグリーディに行動する。確率$\tfrac{1}{2K}$で、現在の回帰子集合内で一様に探索を行う。
各方策の行動が十分な確率で選ばれることを保証する可解性制約（式3.1）を導入することで、回帰子誤差から方策のパフォーマンスへのレグレット転送を可能にする。
実効誤差が最良のものより$\tfrac{18\text{ln}(1/\tdelta_t)}{t}$以上大きい回帰子は除外する。ここで$\tdelta_t = \tfrac{\tdelta}{2Nt^3\text{log}_2(t)}$である。
実現可能性のもとで、除外ルールを厳しくすることで、最適な回帰子が誤って除外されないことを保証する。これは主な技術的貢献である。
アルゴリズムの分析は、回帰子誤差と方策レグレットの直接的な関係を確立する新しいレグレット転送補題に依存しており、これにより従来のアグノスティック手法よりもタイトな境界が得られる。

実験結果

リサーチクエスチョン

RQ1実現可能性仮定（既知の関数クラス内に完全な予測子が存在する）が、アグノスティック設定と比較して文脈バンディットにおける学習速度の向上をもたらすか。
RQ2実現可能性が、行動数Kに依存しない定数レグレットをもたらすような状況が存在するか。
RQ3実現可能性のもとで、最適な回帰子が除外されないよう、より攻撃的な除外戦略を安全に適用できるか。
RQ4実現可能性のもとでの性能の根本的限界は何か。最悪ケースにおいても$\tsqrt{K}$スケーリングが依然として必要か。
RQ5任意の方策クラスに対して、回帰子除去が対数的レグレットを達成する報酬分布が存在するか。これは、従来のアルゴリズムとは対照的である。

主な発見

回帰子除去は、一般にはアグノスティック設定と同等のレグレット境界$\tcal{O}(\tsqrt{KT\text{ln}(NT/\tdelta)})$を達成するが、実現可能性のおかげで定数が改善されている。
本稿では、実現可能性のもとでも、どのアルゴリズムも最悪ケースのレグレットを$\tOmega(\tsqrt{KT})$未満に抑えられないことを示す新たな下界を確立した。これにより、一般には$\tsqrt{K}$依存性が避けられないことが証明された。
任意の方策クラス$\tPi$に対して、回帰子除去が$\tcal{O}(\ttext{ln}(N/\tdelta))$のレグレットを達成する報酬分布が存在する。これは$T$や$K$に依存せず、従来のアプローチとは対照的である。
$\tfrac{1}{t}$に依存する誤差しきい値に基づく除外ルールにより、実現可能性のもとで最適な回帰子が決して除外されないことが保証され、これは主要な技術的洞察である。
探索分布制約（式3.1）の可解性は、Dudikら（2011）の先行研究を改善する洗練された解析により証明された。
レグレット転送補題により、回帰子誤差と方策レグレットの直接的な関係が確立され、実現可能性仮定を活用することで、よりタイトな境界が得られるようになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。