QUICK REVIEW

[論文レビュー] Adapting to Misspecification in Contextual Bandits

Dylan J. Foster, Claudio Gentile|arXiv (Cornell University)|Jul 12, 2021

Advanced Bandit Algorithms Research被引用数 21

ひとこと要約

本稿では、有限および無限の行動設定において未知のモデル不適合性に適応する、オракル効率的なアルゴリズムの新規族を導入する。SquareCBを対数バリア正則化最適化の観点から再解釈することで、未知の不適合度レベル $\varepsilon$ を事前に知らずに、線形コンテキストバンディットにおける最適なリグレットバウンド $\tilde{\mathcal{O}}(d\sqrt{T} + \varepsilon\sqrt{d}T)$ を達成する。また、オンライン回帰オーガルを用いることで、敵対的かつ選択されたコンテキストに対しても対応可能である。

ABSTRACT

A major research direction in contextual bandits is to develop algorithms that are computationally efficient, yet support flexible, general-purpose function approximation. Algorithms based on modeling rewards have shown strong empirical performance, but typically require a well-specified model, and can fail when this assumption does not hold. Can we design algorithms that are efficient and flexible, yet degrade gracefully in the face of model misspecification? We introduce a new family of oracle-efficient algorithms for $\varepsilon$-misspecified contextual bandits that adapt to unknown model misspecification -- both for finite and infinite action settings. Given access to an online oracle for square loss regression, our algorithm attains optimal regret and -- in particular -- optimal dependence on the misspecification level, with no prior knowledge. Specializing to linear contextual bandits with infinite actions in $d$ dimensions, we obtain the first algorithm that achieves the optimal $O(d\sqrt{T} + \varepsilon\sqrt{d}T)$ regret bound for unknown misspecification level $\varepsilon$. On a conceptual level, our results are enabled by a new optimization-based perspective on the regression oracle reduction framework of Foster and Rakhlin, which we anticipate will find broader use.

研究の動機と目的

計算的に効率的なコンテキストバンディットアルゴリズムを開発し、モデル不適合性の下でも効果的であるようにすること。
SquareCBの還元フレームワークを無限の行動集合へと拡張し、最適性と適応性を維持すること。
線形コンテキストバンディットにおける未知の不適合度レベルへの適応という未解決問題を解消すること。
不適合度レベルの事前知識がなくても、劣化が滑らかに進行する一般用途で柔軟に使えるアプローチを提供すること。

提案手法

SquareCBにおける行動選択を、対数バリア正則化最適化問題の近似として再解釈することで、無限の行動空間への拡張を可能にする。
二乗損失のオンライン回帰オーガルを用いることで、計算効率と適応性を維持する。
CORRALに類似したバンディットモデル選択手順と組み合わせることで、未知の不適合度レベルに適応する。
ラウンド化に基づく反復スキームを採用し、分布のサポートとサブオプティマルティーガップの制御を維持する。計算複雑度は $\mathcal{O}(d^4|\mathcal{A}|)$ 操作で抑えられる。
回帰オーガル還元フレームワークに新たな最適化的視点を導入することで、実現可能性の範囲を超えて一般化可能にする。
オンラインオーガルに依存することで、オフラインオーガルよりも強い性能を発揮し、より効率的な更新が可能になる。

実験結果

リサーチクエスチョン

RQ1未知のモデル不適合性に適応しつつ、最適なリグレットと計算効率を維持できるコンテキストバンディットアルゴリズムを設計できるか？
RQ2最適性や適応性を損なわず、SquareCB還元を無限の行動集合へと拡張できるか？
RQ3$\varepsilon$ の事前知識がなくても、不適合度レベル $\varepsilon$ に対する最適なリグレット依存関係を達成できるか？
RQ4CORRAL風の集約フレームワークを、対数的要因を改善した形で無限の行動設定に一般化できるか？

主な発見

提案されたアルゴリズムは、無限の行動と未知の不適合度レベル $\varepsilon$ を伴う線形コンテキストバンディットにおいて、最適なリグレットバウンド $\tilde{\mathcal{O}}(d\sqrt{T} + \varepsilon\sqrt{d}T)$ を達成する。
アルゴリズムはオーガル効率的であり、二乗損失回帰のオンラインオーガルのみを必要とし、不適合度レベル $\varepsilon$ に対する最適な依存関係を維持する。
行動選択を対数バリア正則化最適化問題として定式化することで、SquareCBフレームワークを無限の行動集合へ一般化する。
不適合性の下でも滑らかに劣化し、$\varepsilon$ の事前知識がなくても適応可能であり、Lattimoreら（2020）が提示した未解決問題を解決する。
CORRALアルゴリズムの新バージョンを提案し、より単純で柔軟性に富み、リグレットバウンドにおける対数的要因が改善されている。
総合的な計算複雑度は $\tilde{\mathcal{O}}(d^4|\mathcal{A}|)$ 操作で抑えられ、スパースなサポート表現によりメモリ効率が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。