QUICK REVIEW

[論文レビュー] An Information-Theoretic Approach to Minimax Regret in Partial Monitoring

Tor Lattimore, Csaba Szepesvári|arXiv (Cornell University)|Feb 1, 2019

Advanced Bandit Algorithms Research参考文献 34被引用数 58

ひとこと要約

本論文は、有限アクションの部分モニタリングにおいて最悪ケースのベイズ後悔とミニマックス後悔を同値とするミニマックス定理を確立し、情報理論的後悔ツールを拡張して厳密な境界を導出し、kアームバンディットや警官と泥棒ゲームを含むいくつかの設定で定数を改善する。

ABSTRACT

We prove a new minimax theorem connecting the worst-case Bayesian regret and minimax regret under partial monitoring with no assumptions on the space of signals or decisions of the adversary. We then generalise the information-theoretic tools of Russo and Van Roy (2016) for proving Bayesian regret bounds and combine them with the minimax theorem to derive minimax regret bounds for various partial monitoring settings. The highlight is a clean analysis of `non-degenerate easy' and `hard' finite partial monitoring, with new regret bounds that are independent of arbitrarily large game-dependent constants. The power of the generalised machinery is further demonstrated by proving that the minimax regret for k-armed adversarial bandits is at most sqrt{2kn}, improving on existing results by a factor of 2. Finally, we provide a simple analysis of the cops and robbers game, also improving best known constants.

研究の動機と目的

攻撃者の信号や意思決定に関する仮定を置かずに、有限アクションの部分モニタリングにおけるベイズ後悔とミニマックス後悔の関連性を一般化する。
Russo and Van Roy の情報理論的ツールを、相互情報量の代わりに期待値付きブレグマン発散を用いることで拡張する。
easy および hard な部分モニタリング設定に対するミニマックス後悔の境界を、改善された定数とホライゾン依存性と共に導出する。
k-アーム対戦的バンディットにおける改善されたミニマックス後悔を示し、より良い定数を用いた警官と泥棒ゲームの解析を提供する。

提案手法

有限サポートの事前分布上で、inf_pi sup_x R_n(pi,x) = sup_nu min_pi BR_n(pi,nu) を証明する。
後悔の境界における相互情報量を、期待値付きブレグマン発散に置き換えることで、より一般的な情報トレードオフを得る（定理5.2）。
問題の線形構造（セル C_a、隣接関係、観測性）を活用して、有限アクションの部分モニタリングへこの枠組みを適用する。
部分モニタリングゲームを4つの型に分類し、各型の上界を提供する。局所観測可能性および世界的観測可能性の場合で定数を改善。
マリオサンプリングを導入する。トンプソン法に類似したアルゴリズムで、質量移動手順を伴い、所要の後悔界を達成する（補題8.3）。
k-armed adversarial bandits に特化して R*_n ≤ sqrt(2kn) を得る（定理6.1）と、改善された定数による警官と泥棒ゲームへの含意を論じる。

実験結果

リサーチクエスチョン

RQ1制限的な仮定を置かずに、有限アクションの部分モニタリングにおける最悪ケースのベイズ後悔とミニマックス後悔の関係は何か？
RQ2期待値付きブレグマン発散を用いて情報理論的後悔分析を拡張し、部分モニタリングとバンディット問題のより厳密なミニマックス後悔境界を得ることができるか？
RQ3easy と hard な有限の部分モニタリングのレジット成長はどう異なり、定数をゲーム依存因子から独立にすることができるか？
RQ4一般化された枠組みの下で、k-armed adversarial bandits や cops-and-robbers のような特定設定の明示的な後悔境界はどれか？

主な発見

制限的仮定なしの下で、有限アクションの部分モニタリングにおいて BR*_n = R*_n を示すミニマックス定理（定理4.1）。
期待値付きブレグマン発散を用いる一般的な後悔-情報のトレードオフで、BR_n ≤ αn + sqrt(nβ diam_F(D))（定理5.2）へ。
k-armed adversarial bandits の改良境界: R*_n ≤ sqrt(2kn)（定理6.1）。
有限部分モニタリングゲームを4つの領域に分類し、局所観測可能および全体観測可能ケースで定数を改善（定理7.1、定理7.2–7.4）。
マリオサンプリングの導入。実用的なアルゴリズムで、所定のミニマックス界を達成（アルゴリズムと補題8.3）。
cops and robbers については、改善された定数により R*_n ≤ sqrt{2n log(k)} が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。