[論文レビュー] Simple regret for infinitely many armed bandits
本稿では、nラウンド後に1つの最適なアームを選択する必要がある無限に多くのアームが存在するバンディット設定において、単純な後悔を最小化するための新規アルゴリズムであるSiRIを紹介する。リザーバー分布のβ-正則性パラメータに応じてアームを段階的にサンプリングすることで、SiRIは異なるβの範囲において、対数要因を除いてミニマックス最適な単純後悔レートを達成する。これは、累積後悔を最適化するアルゴリズムに比べて、最適アーム同定タスクで優れた性能を発揮する。
We consider a stochastic bandit problem with infinitely many arms. In this setting, the learner has no chance of trying all the arms even once and has to dedicate its limited number of samples only to a certain number of arms. All previous algorithms for this setting were designed for minimizing the cumulative regret of the learner. In this paper, we propose an algorithm aiming at minimizing the simple regret. As in the cumulative regret setting of infinitely many armed bandits, the rate of the simple regret will depend on a parameter $β$ characterizing the distribution of the near-optimal arms. We prove that depending on $β$, our algorithm is minimax optimal either up to a multiplicative constant or up to a $\log(n)$ factor. We also provide extensions to several important cases: when $β$ is unknown, in a natural setting where the near-optimal arms have a small variance, and in the case of unknown time horizon.
研究の動機と目的
- n回のサンプルしか入手できない状況で、無限に多くのアームの中から1つの最適なアームを選択する課題に対処すること。
- 累積後悔から単純後悔へと焦点を移すこと。単純後悔とは、選択されたアームと真の最適アームとの差を測る指標である。
- アームのリザーバー分布の未知のβ-正則性パラメータに適応するアルゴリズムを設計すること。
- 単純後悔に関する理論的保証を提供し、対数要因を除いてミニマックス最適性を達成すること。
- 未知の時間枠や未知のβに対しても適応可能なようにアルゴリズムを拡張し、実用的応用を可能にすること。
提案手法
- SiRIは二段階のサンプリング戦略を用いる:最初に初期サンプルからβを推定し、その後残りのサンプルを推定されたβに応じてアームに割り当てる。
- 実証的平均と分散に基づき、高い潜在的性能を持つアームを優先する、信頼区間に基づくアーム選択メカニズムを採用する。
- β-正則性仮定を用いて近似的に最適なアームの分布をモデル化し、P(μ* − μ ≥ ε) ≈ ε^β と表現する。
- 単純後悔最小化に特化した、β依存の項でスケーリングされた信頼区間を用いた修正版UCB型探索戦略を適用する。
- ダブルイング・トリックとUCB-AIRにインspiredな技術を用いて、SiRIをいつでも利用可能な形にし、未知の時間枠に適応可能にする。
- 理論的保証を伴う推定精度を有するように、一部のサンプルを用いてβを推定する。
実験結果
リサーチクエスチョン
- RQ1無限に多くのアームが存在するバンディット設定において、nラウンド後に1つのアームのみを選択できる状況で、単純後悔を最適に最小化することは可能か?
- RQ2アームリザーバー分布のβ-正則性パラメータは、単純後悔のミニマックスレートにどのように影響するか?
- RQ3βの事前知識がなくても、単純後悔のミニマックス最適性を達成できるアルゴリズムを設計することは可能か?
- RQ4未知の時間枠に対しても耐性を持ちつつ、近似的に最適な単純後悔を維持できるか?
- RQ5UCB-Fのような累積後悔最適化アルゴリズムや、lil’UCBのような最適アーム同定アルゴリズムと比較して、SiRIの性能はどうか?
主な発見
- SiRIは高確率で単純後悔レートO(polylog(n) × max(n^{-1/2}, n^{-1/β} polylog n))を達成し、これは対数要因を除いてミニマックス最適である。
- β < 2の場合、単純後悔レートはn^{-1/2}に支配され、β > 2の場合はn^{-1/β}に支配される。これはβが問題の複雑さに与える影響を反映している。
- βが未知の場合、推定されたβ(β̄-SiRIと表記)を用いたSiRIでも、最適レートから対数要因を除いて近い単純後悔レートを達成する。
- 数値実験により、最適なアーム数が与えられた場合、SiRIはlil’UCBと同等の性能を示すことが確認され、最適アーム同定における有効性が裏付けられた。
- 累積後悔を最適化するUCB-Fは、βが大きい場合に著しく性能を発揮せず、累積後悔最小化が単純後悔最小化に対して劣っていることが確認された。
- βが√n個のサンプルからデータから推定されても、性能の低下は最小限に抑えられ、アルゴリズムの有効性が保たれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。