[論文レビュー] Model Selection in Contextual Stochastic Bandit Problems
本稿は、文脈的確率的バンディットにおけるモデル選択のためのメタアルゴリズムフレームワークを導入し、基本アルゴリズムに新しいスムージング変換を適用することで、$O(\sqrt{T})$のレグレット保証を達成する。このアプローチは一般のクラスの基本アルゴリズムと併用可能であり、最良の基本アルゴリズムが対数的レグレットを持つ場合でも、近似的に最適な性能を達成する。これは、モデル選択に対して根本的な$\Omega(\sqrt{T})$の下界が存在するという事実に基づく。
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $Ω(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
研究の動機と目的
- 候補となるアルゴリズムの中で最良のものが事前に不明な文脈的確率的バンディットにおけるモデル選択を解決すること。
- 高い確率でのレグレット保証を持つ基本アルゴリズムの間で適応的に選択できるメタアルゴリズムを開発すること。最良の基本アルゴリズムのレグレットに関する事前知識が不要である。
- モデル選択の性能に理論的限界を確立し、最良の基本アルゴリズムが$O(\log T)$レグレットを持つ場合でも、$\Omega(\sqrt{T})$のレグレットは避けられないことを示すこと。
- ミススぺシフィケーション線形バンディット、未知次元線形バンディット、未知特徴写像を伴う強化学習など、他の問題へのフレームワークの拡張。
- ブラックボックス互換性のある手法を提供し、基本アルゴリズムのレグレット境界の再証明や安定性仮定を必要としない。
提案手法
- バンディットアルゴリズムに一般化されたスムージング変換を導入し、性能の安定化を図り、敵対的メタアルゴリズムへの適用に適したものとする。
- 基本アルゴリズムをアームとみなすCORRALスタイルのメタアルゴリズムを採用し、歴史的パフォーマンスに基づいて選択を行う。
- メタアルゴリズムにおける学習率スケジュールを、既知の最良の基本アルゴリズムのレグレットに依存させ、$O(\sqrt{T})$のレグレットを達成する。
- ミススぺシフィケーション線形バンディット、未知次元線形バンディット、未知特徴写像を伴う強化学習など、さまざまな問題にフレームワークを適用。
- 各基本アルゴリズム$\mathcal{B}_i$が仮のレグレット境界$U_i(t,\delta)$に関連づけられる、高確率的レグレット保証フレームワークを採用。
- 最良の基本アルゴリズムのレグレットに関する事前知識がなければ、いかなるメタアルゴリズムも最良の基本アルゴリズムより悪いレグレットを被る可能性があることを示す。
実験結果
リサーチクエスチョン
- RQ1最良の基本アルゴリズムが$O(\log T)$レグレットを持つ場合でも、文脈的バンディットにおけるモデル選択で$O(\sqrt{T})$のレグレットを達成できるメタアルゴリズムは存在するか?
- RQ2安定性や再証明を必要とせず、任意の基本アルゴリズムと連携できるブラックボックス型メタアルゴリズムを設計可能か?
- RQ3最良の基本アルゴリズムが完全に適合している場合でも、文脈的バンディットにおけるモデル選択のレグレットの根本的限界は何か?
- RQ4未知のモデルパラメータ(例:未知の次元、未知のリンク関数)を伴う問題に対しても、提案されたフレームワークは対応可能か?
- RQ5スムージング変換は、非安定な基本アルゴリズムをCORRALのような敵対的メタアルゴリズムで使用可能にする仕組みをどのように実現するか?
主な発見
- 提案されたメタアルゴリズムは、文脈的バンディットにおけるモデル選択で$O(\sqrt{T})$のレグレットを達成し、最良の基本アルゴリズムが$O(\log T)$レグレットであっても最適レートを達成する。
- 下界により、最良の基本アルゴリズムが$O(\log T)$レグレットであっても、モデル選択において$\Omega(\sqrt{T})$のレグレットは避けられないことが示された。
- スムージング変換により、UCB や OFUL といった標準的な確率的バンディットアルゴリズムを安定性条件を要せず、敵対的メタアルゴリズムで使用可能にする。
- ミススぺシフィケーション線形バンディットでは、$M$個のスムージング済みLSVI-UCBバージョンから選択する際、$\widetilde{\mathcal{O}}(\sqrt{Md^3H^3T})$のレグレットを達成する。
- 未知のリンク関数を伴う一般化線形バンディットでは、各リンク関数を基本アルゴリズムとして扱うことで、$\widetilde{\mathcal{O}}(\sqrt{|\mathbb{L}|dT})$のレグレットを達成する。
- 未知の$\epsilon_*$を伴うヘビーテールバンディットでは、$\epsilon_*$のグリッドと$\eta = T^{-1/2}$を用いることで、$\widetilde{\mathcal{O}}(T^{1-0.5b\epsilon_*})$のレグレットを達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。