[論文レビュー] Rising Multi-Armed Bandits with Known Horizons
要約: 本論文は、既知の horizon を持つ Rising Multi-Armed Bandits (RMAB) に対する horizon-aware アルゴリズム CURE-UCB を導入し、理論的な regret 保証と、 horizon-agnostic なベースラインに対する優位性を示す広範な実証を提供する。
The Rising Multi-Armed Bandit (RMAB) framework models environments where expected rewards of arms increase with plays, which models practical scenarios where performance of each option improves with the repeated usage, such as in robotics and hyperparameter tuning. For instance, in hyperparameter tuning, the validation accuracy of a model configuration (arm) typically increases with each training epoch. A defining characteristic of RMAB is em horizon-dependent optimality: unlike standard settings, the optimal strategy here shifts dramatically depending on the available budget $T$. This implies that knowledge of $T$ yields significantly greater utility in RMAB, empowering the learner to align its decision-making with this shifting optimality. However, the horizon-aware setting remains underexplored. To address this, we propose a novel CUmulative Reward Estimation UCB (CURE-UCB) that explicitly integrates the horizon. We provide a rigorous analysis establishing a new regret upper bound and prove that our method strictly outperforms horizon-agnostic strategies in structured environments like ``linear-then-flat'' instances. Extensive experiments demonstrate its significant superiority over baselines.
研究の動機と目的
- 有限-horizon RMAB 設定における horizon-dependent な最適性を強調する。
- 既知の horizon を活用して累積ポテンシャルを推定する CURE-UCB アルゴリズムを提案・形式化する。
- 構造化された環境で horizon-agnostic な方法に対する優越性を証明し、一般的な凹上昇環境の regret 境界を確立する。
- 合成実験と実世界のオンラインモデル選択タスク(IMDB)を通じてアプローチを検証する。
提案手法
- 凹関数の上昇報酬をもつ RMAB と horizon-dependent な最適方策(累積報酬の単一アーム実行最大化)を定義する。
- CURE-UCB を導入し、残りの horizon に対して有界な累積報酬を推定する horizon-adaptive 指標 B_i(t) を構築する。
- B_i(t) を直近の平均、推定未来利益、探索ボーナスをスライディング窓 h_i を用いて分解する。
- 各アームを二回サンプルして初期化し、その後 B_i(t) の最大化(argmax)により反復的にアームを選択する。
- 理論的結果を提示:線形-→平坦 (LTF) 設定での厳密な支配性(定理 5.2)と、凹上昇環境の一般的な regret 上限(定理 5.4)。
- horizon-agnostic (R-ed-UCB) および非定常ベースラインと比較し、 horizon-aware の利点を示す。
実験結果
リサーチクエスチョン
- RQ1明示的な horizon 知識は RMAB におけるアーム引きの最適シーケンスにどのような影響を与えるのか?
- RQ2 horizon-aware な推定器は structured および一般的な上昇報酬設定で horizon-agnostic 方法を上回れるのか?
- RQ3 RMAB における horizon-aware 戦略の理論的保証(支配性と regret の境界)は何か?
- RQ4 合成データ(LTF および凹)と実世界タスク(IMDB)での実証結果は horizon-aware の利点を支持するか?
主な発見
- CURE-UCB は LTF および凹設定の両方で、あらゆる horizon に対して一貫して基準ベースラインより累積 regret が低い。
- 構造化された LTF 環境では、CURE-UCB は horizon-agnostic な R-ed-UCB を厳密に支配する(定理 5.2)。
- 凹上昇環境に対する一般的な regret 上限を提示する(定理 5.4)。
- 合成ベンチマークとオンラインモデル選択タスク(IMDB)で、CURE-UCB が最多またはほぼ最多の順位を獲得する実証結果を示す。
- horizon-adaptive 指標 B_i(t) は、成長投資と即時リターンの探索の適切なバランスを効果的に識別する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。