Skip to main content
QUICK REVIEW

[論文レビュー] Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously

Chung‐Wei Lee, Haipeng Luo|arXiv (Cornell University)|Jul 18, 2021
Advanced Bandit Algorithms Research被引用数 4
ひとこと要約

本稿では、確率的環境におけるインスタンス最適なリグレットと、敵対的環境におけるミニマックス最適なリグレットを、高確率保証のもとで同時に達成する2つの新しい線形バンディットアルゴリズムを提案する。新しい損失推定器と敵対的要素を、適応的テストと統合することで、確率的設定ではほぼインスタンス最適な性能を達成し、汚染に対する最適なロバストネスを実現。従来の手法に比べ、適応性および汚染度依存性の両面で優れている。

ABSTRACT

In this work, we develop linear bandit algorithms that automatically adapt to different environments. By plugging a novel loss estimator into the optimization problem that characterizes the instance-optimal strategy, our first algorithm not only achieves nearly instance-optimal regret in stochastic environments, but also works in corrupted environments with additional regret being the amount of corruption, while the state-of-the-art (Li et al., 2019) achieves neither instance-optimality nor the optimal dependence on the corruption amount. Moreover, by equipping this algorithm with an adversarial component and carefully-designed testings, our second algorithm additionally enjoys minimax-optimal regret in completely adversarial environments, which is the first of this kind to our knowledge. Finally, all our guarantees hold with high probability, while existing instance-optimal guarantees only hold in expectation.

研究の動機と目的

  • 環境タイプを事前に知らずに、確率的および敵対的環境の両方に適応する線形バンディットアルゴリズムの開発。
  • 問題固有のパラメータに依存するリグレットを示す確率的設定において、ほぼインスタンス最適なリグレットを達成すること。
  • 汚染されたフィードバックに対してロバストであること。さらに、リグレットが汚染量に線形に依存するように保証すること。
  • 完全に敵対的な環境においてミニマックス最適なリグレットを達成すること。これは、同様のフレームワークで以前に達成されていなかった。
  • 期待値のみを保証する従来のインスタンス最適手法の限界を克服し、高確率でのリグレットバウンドを提供すること。

提案手法

  • インスタンス最適戦略の背後にある最適化問題を改善し、ロバストネスと適応性を向上させる、新しい損失推定器を導入。
  • 慎重に構築されたテスト手順を用いて、確率的要素と敵対的要素を組み合わせた二段階アルゴリズムを設計。
  • すべての理論的保証が高確率で成り立つように保証するため、高確率集中技術を採用。
  • 環境の特性に応じて、確率的および敵対的動作の間で動的に切り替えるテストを用いる。
  • 汚染環境におけるリグレットが、汚染量に比例して増加することを保証し、最適な依存関係を達成。
  • 線形バンディットの構造を活かして、計算効率を維持しながら強力な理論的性能を達成。

実験結果

リサーチクエスチョン

  • RQ11つの線形バンディットアルゴリズムが、確率的環境におけるインスタンス最適性と、敵対的環境におけるミニマックス最適性を同時に達成できるか?
  • RQ2アルゴリズムは、汚染されたフィードバックに対してロバストであると同時に、ほぼインスタンス最適なリグレットを維持できるか?
  • RQ3敵対的設定において、リグレットの汚染量への最適な依存関係は何か?
  • RQ4インスタンス最適な線形バンディットに対して、期待値ではなく高確率でのリグレットバウンドを達成できるか?
  • RQ5確率的および敵対的領域間の自動的適応を可能にするメカニズムは何か?(環境の種類を事前に知らずに)

主な発見

  • 最初のアルゴリズムは、確率的環境においてほぼインスタンス最適なリグレットを達成し、汚染量に比例する追加のリグレットを被るが、高確率保証のもとで成立する。
  • Li et al., 2019 より優れており、インスタンス最適性と汚染量への最適依存関係の両方を達成している。従来の手法では達成できなかった。
  • 敵対的要素と適応的テストを強化した第二のアルゴリズムは、完全に敵対的な環境でミニマックス最適なリグレットを達成し、このクラスのアルゴリズムとしては初の実現である。
  • すべての理論的保証が高確率で成立しており、従来のインスタンス最適手法が期待値に基づく保証しか提供しなかったという限界を解消した。
  • 提案手法は、環境タイプ(確率的、汚染あり、完全に敵対的)に自動的に適応し、事前の知識やハイパーパrameterチューニングを必要としない。
  • 新規損失推定器により、よりタイトなリグレットバウンドと向上したロバストネスが実現され、二重最適性保証を可能にするコアなイノベーションを形成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。