Skip to main content
QUICK REVIEW

[論文レビュー] More Adaptive Algorithms for Adversarial Bandits

Chen-Yu Wei, Haipeng Luo|arXiv (Cornell University)|Jan 10, 2018
Advanced Bandit Algorithms Research被引用数 40
ひとこと要約

Broad-OMDを導入した、敵対的マルチアームバンディットと組合せ半バンディットのための柔軟な障壁正則化オンラインミラーデセントアルゴリズムで、データ依存の複数の後悔境界と、さまざまな実装下でのいくつかのパラメータ不要なバリアントを生み出します。

ABSTRACT

We develop a novel and generic algorithm for the adversarial multi-armed bandit problem (or more generally the combinatorial semi-bandit problem). When instantiated differently, our algorithm achieves various new data-dependent regret bounds improving previous work. Examples include: 1) a regret bound depending on the variance of only the best arm; 2) a regret bound depending on the first-order path-length of only the best arm; 3) a regret bound depending on the sum of first-order path-lengths of all arms as well as an important negative term, which together lead to faster convergence rates for some normal form games with partial feedback; 4) a regret bound that simultaneously implies small regret when the best arm has small loss and logarithmic regret when there exists an arm whose expected loss is always smaller than those of others by a fixed gap (e.g. the classic i.i.d. setting). In some cases, such as the last two results, our algorithm is completely parameter-free. The main idea of our algorithm is to apply the optimism and adaptivity techniques to the well-known Online Mirror Descent framework with a special log-barrier regularizer. The challenges are to come up with appropriate optimistic predictions and correction terms in this framework. Some of our results also crucially rely on using a sophisticated increasing learning rate schedule.

研究の動機と目的

  • データ特性に適応する、敵対的バンディットおよび半バンディットのための新規で汎用的なアルゴリズムを開発する。
  • さまざまな環境で従来研究を上回る可能性のある、複数のデータ依存の後悔境界を導出する。
  • 最適性・楽観性、適応性、対数障壁正則化、および学習率の増加がこれらの境界を可能にすることを示す。
  • いくつかの結果でパラメータ不要なバリアントを提供し、MABおよび半バンディット設定での実用的実装を分析する。

提案手法

  • 行動集合の凸結合上の対数障壁正則化子を用いたオンラインミラーデセントアルゴリズム Broad-OMD を提案する。
  • データ依存の境界を達成するために、損失ベクトルに楽観的予測と適応補正項を組み込む。
  • 時変正則化子と増加する学習率スケジュールを用いて経路長ベースの保証を得る。
  • 異なる構成(Option I および II)と m_t, hat{l}_t, および eta_t の異なる選択に対して後悔境界を導出する。
  • 必要に応じて未知量を推定するためにリザーバサンプリングと一様探索を用いる(パラメータ不要バリアントのため)。
  • 一般フレームワークを MAB および半バンディット設定に特化して、具体的な適応境界を得る。

実験結果

リサーチクエスチョン

  • RQ1単一の汎用アルゴリズム(Broad-OMD)が、敵対的バンディットおよび半バンディットにおいて複数のデータ依存後悔境界を生み出すことができるか?
  • RQ2楽観性、適応性、対数障壁正則化、および増加する学習率が、改善されたまたはパラメータ不要の後悔保証にどのように寄与するか?
  • RQ3これらの境界を駆動する具体的なデータ依存量(例:最良アームの分散、経路長など)は何か、MAB/半バンディット設定で?
  • RQ4これらの境界は、バンディットフィードバック下のゲーム理論的状況での収束の実践的改善に結びつくか?

主な発見

  • 一般的な Broad-OMD フレームワークは、最良アームの分散や1階の経路長境界を含む、インスタンシエーションによってさまざまなデータ依存後悔境界を達成する。
  • 楽観的予測と適応補正項を組み込んだオンラインミラーデセント内で対数障壁正則化子を用いると、敵対的バンディットおよび半バンディットで後悔保証を生む。
  • 必要に応じて未知量を推定するための doubling trick とリザーバサンプリングを通じて、パラメータ不要バリアントを適合させる。
  • 経路長ベースの境界と小損失型境界を得るとともに、バンディットフィードバックを伴ういくつかのゲームプレイ設定でより速い収束を可能にする負の項を含む。
  • このアプローチは、比較的単純でモジュール化された分析で半バンディット設定へ適応的オンライン学習手法を統合・拡張する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。