[論文レビュー] Truly Adapting to Adversarial Constraints in Constrained MABs
本論文は未知で時間変動する制約と非定常な損失を持つ制約付き多腕バンディットを研究する。制約の非定常性のみに依存して劣化するサブ線形の後悔(regret)と制約違反を達成するアルゴリズムを提供する。全情報フィードバックおよびバンドイットフィードバックの設定で。
We study the constrained variant of the \emph{multi-armed bandit} (MAB) problem, in which the learner aims not only at minimizing the total loss incurred during the learning dynamic, but also at controlling the violation of multiple \emph{unknown} constraints, under both \emph{full} and \emph{bandit feedback}. We consider a non-stationary environment that subsumes both stochastic and adversarial models and where, at each round, both losses and constraints are drawn from distributions that may change arbitrarily over time. In such a setting, it is provably not possible to guarantee both sublinear regret and sublinear violation. Accordingly, prior work has mainly focused either on settings with stochastic constraints or on relaxing the benchmark with fully adversarial constraints (\emph{e.g.}, via competitive ratios with respect to the optimum). We provide the first algorithms that achieve optimal rates of regret and \emph{positive} constraint violation when the constraints are stochastic while the losses may vary arbitrarily, and that simultaneously yield guarantees that degrade smoothly with the degree of adversariality of the constraints. Specifically, under \emph{full feedback} we propose an algorithm attaining $\widetilde{\mathcal{O}}(\sqrt{T}+C)$ regret and $\widetilde{\mathcal{O}}(\sqrt{T}+C)$ {positive} violation, where $C$ quantifies the amount of non-stationarity in the constraints. We then show how to extend these guarantees when only bandit feedback is available for the losses. Finally, when \emph{bandit feedback} is available for the constraints, we design an algorithm achieving $\widetilde{\mathcal{O}}(\sqrt{T}+C)$ {positive} violation and $\widetilde{\mathcal{O}}(\sqrt{T}+C\sqrt{T})$ regret.
研究の動機と目的
- 未知で時間変動する制約分布が制約付きMABに与える影響を理解する。
- 損失が敵対的であっても制約が確率的である場合、サブ線形の後悔とサブ線形の正の制約違反を達成するアルゴリズムを開発する。
- 損失と制約のバンドイットフィードバックへの拡張を提供する。
- 制約の非定常性レベルCが違反と後悔の境界をどのように劣化させるかを特徴づける。
提案手法
- 制約の非定常性を定量化するための腐敗レベルCを導入する。
- 制約違反の楽観的推定を用いて、各ラウンドで近似的な実現可能集合X_tを構築する。
- 固定シェア更新を伴うオンラインミラー降下法を用いて移動する意思決定空間に対処し、スイッチング後悔保証を達成する。
- 損失に対するバンドイットフィードバックのための二段階アプローチを開発し、十分な探索を保証する(ExpOpt-ConOMD)。
- 信頼区間の適応と探索戦略を拡張して制約に対するバンドイットフィードバックに対応する(Constrained OMD系統)。
- 全フィードバック下でR_T = Ŝ(√T + C)およびV_T = Ŝ(√T + C)という理論的境界を示し、バンドイット設定への拡張は類似またはやや弱い保証をもたらす。
実験結果
リサーチクエスチョン
- RQ1未知で非定常な制約がある中で、損失が敵対的であっても、後悔がサブ線形で、正の制約違反もサブ線形で達成できるか?
- RQ2未知の制約腐敗に対応しつつ、後悔を扱いやすく保つために学習者は可行な作用素集合をどのように適応的に構築すべきか?
- RQ3全情報フィードバックとバンドイットフィードバックの場合の、損失と制約の最適な後悔・違反境界はどのようになるか?
- RQ4境界は制約の非定常性の程度(C)とともにどのように劣化し、滑らかに劣化させることができるか?
主な発見
- 全情報フィードバックの下で提案アルゴリズムConOMD-FSは後悔と正の制約違反をO(Ŝ(√T + C))のオーダーで達成する。
- 損失についてのみバンドイットフィードバックが利用可能な場合、ConOMD-FSアプローチは解析を調整して同様の保証を得る。
- 制約에対するバンドイットフィードバックではExpOpt-ConOMDファミリがŜ(√T + C)の正の違反とŜ(√T + C√T)の後悔を達成する(β = 1/2を選ぶとこの境界になる)。
- 腐敗レベルCは性能劣化の主要因であり、Cとともに滑らかに劣化し、破滅的にはならないことが示される。
- 移動する(時刻依存の)制約未来を、移動する意思決定空間に対するスイッチング後悔とフェーズ間のダウリングトリックで処理する。
- 従来研究と比較して、確率設定での最善の保証と一致し、わずかな敵対的制約下でサブ線形の後悔を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。