QUICK REVIEW

[論文レビュー] Online Bandit Learning against an Adaptive Adversary: from Regret to Policy Regret

Raman Arora, Ofer Dekel|arXiv (Cornell University)|Jun 27, 2012

Advanced Bandit Algorithms Research参考文献 25被引用数 87

ひとこと要約

この論文は、学習者が自身の行動に応じて反応する適応的敵対者に対するオンラインバンディット学習において、標準的レギュレーションよりも意味のあるパフォーマンス指標としてポリシーの後悔を導入する。unbounded memoryの敵対者に対しては、サブ線形ポリシー後悔が達成できないことを証明するが、有界記憶の敵対者に対しては、任意のサブ線形後悔を示すバンディットアルゴリズムを、サブ線形ポリシー後悔を持つものに変換する一般的手法を提示し、スイッチング後悔、内部後悔、スワップ後悔へと拡張する。

ABSTRACT

Online learning algorithms are designed to learn even when their input is generated by an adversary. The widely-accepted formal definition of an online algorithm's ability to learn is the game-theoretic notion of regret. We argue that the standard definition of regret becomes inadequate if the adversary is allowed to adapt to the online algorithm's actions. We define the alternative notion of policy regret, which attempts to provide a more meaningful way to measure an online algorithm's performance against adaptive adversaries. Focusing on the online bandit setting, we show that no bandit algorithm can guarantee a sublinear policy regret against an adaptive adversary with unbounded memory. On the other hand, if the adversary's memory is bounded, we present a general technique that converts any bandit algorithm with a sublinear regret bound into an algorithm with a sublinear policy regret bound. We extend this result to other variants of regret, such as switching regret, internal regret, and swap regret.

研究の動機と目的

学習者が自身の行動に応じて反応する敵対者に対して、標準的後悔が性能評価に不十分であるという問題に対処すること。
適応的敵対者に対する学習をよりよく反映する新たなパフォーマンス指標「ポリシー後悔」を形式化すること。
異なる敵対者の記憶制約の下で、オンラインバンディット設定においてサブ線形ポリシー後悔を達成可能かどうかを調査すること。
敵対者の記憶が有界である場合に、任意のサブ線形後悔バンディットアルゴリズムをサブ線形ポリシー後悔を持つものに変換する一般的手法を開発すること。
スイッチング後悔、内部後悔、スワップ後悔を含む他の後悔変種へとフレームワークを拡張すること。

提案手法

学習者の累積損失を、時間経過における最良の固定ポリシーとの比較に基づく新たなパフォーマンス指標としてポリシー後悔を提案する。
標準的後悔が適応的状況で不十分であることを示すために、標準的後悔はサブ線形だがポリシー後悔は線形となる反例を構築する。
記憶が無限大である適応的敵対者に対しては、いかなるバンディットアルゴリズムでもサブ線形ポリシー後悔を達成できないことを証明する。
敵対者の記憶が有界である場合に、任意のサブ線形後悔を示すバンディットアルゴリズムを、サブ線形ポリシー後悔を持つものに変換する変換技術を導入する。
この変換を応用して、有界記憶下でのスイッチング後悔、内部後悔、スワップ後悔についてもサブ線形ポリシー後悔の境界を導出する。
ゲーム理論的分析と後悔分解を用いて、有界記憶仮定の下での理論的保証を確立する。

実験結果

リサーチクエスチョン

RQ1オンラインバンディット学習において、敵対者が学習者の行動に応じて反応する場合、標準的後悔は性能評価に十分な指標となるか？
RQ2記憶が無限大である適応的敵対者に対して、オンラインバンディット設定でサブ線形ポリシー後悔を達成することは可能か？
RQ3敵対者の記憶にどのような条件が課されると、サブ線形ポリシー後悔を持つバンディットアルゴリズムの設計が可能になるか？
RQ4敵対者の記憶が有界である場合に、任意のサブ線形後悔バンディットアルゴリズムをサブ線形ポリシー後悔を持つものに変換する一般的手法を構築可能か？
RQ5適応的状況下で、ポリシー後悔の境界は、スイッチング後悔、内部後悔、スワップ後悔といった他の後悔変種とどのように関係するか？

主な発見

敵対者が学習者の行動に応じて反応する状況では、標準的後悔はオンラインバンディットアルゴリズムの性能評価に不十分である。
記憶が無限大である適応的敵対者に対しては、いかなるバンディットアルゴリズムでもサブ線形ポリシー後悔を達成できない。
記憶が有界である場合、任意のサブ線形後悔を示すバンディットアルゴリズムを、サブ線形ポリシー後悔を持つものに変換する一般的手法が存在する。
この変換技術は、有界記憶下でスイッチング後悔、内部後悔、スワップ後悔についてもサブ線形境界を達成可能である。
適応的環境では、標準的後悔よりもポリシー後悔がより意味のあるパフォーマンス指標である。
本研究は、バンディット設定における適応的敵対者に対するオンライン学習の根本的限界と、構成的解決策を確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。