QUICK REVIEW

[論文レビュー] Minimax Policies for Combinatorial Prediction Games

Jean-Yves Audibert, Sébastien Bubeck|arXiv (Cornell University)|May 24, 2011

Advanced Bandit Algorithms Research参考文献 19被引用数 41

ひとこと要約

本稿は、完全情報、セミバンディット、バンディットフィードバック設定下での組み合わせ予測ゲームに対して、$L_∞$ および $L_2$ 損失制約のもとでタイトなミニマックスレギュレートバウンドを確立する。Bregman射影を用いた統一的なポテンシャルベース勾配降下法を導入し、先行研究の結果を回復するとともに、初めてのタイトなレギュレートバウンドを証明する。これは、指数加重平均予測器が $L_∞$ 敵に対して最適でないことを示している。

ABSTRACT

We address the online linear optimization problem when the actions of the forecaster are represented by binary vectors. Our goal is to understand the magnitude of the minimax regret for the worst possible set of actions. We study the problem under three different assumptions for the feedback: full information, and the partial information models of the so-called "semi-bandit", and "bandit" problems. We consider both $L_\infty$-, and $L_2$-type of restrictions for the losses assigned by the adversary. We formulate a general strategy using Bregman projections on top of a potential-based gradient descent, which generalizes the ones studied in the series of papers Gyorgy et al. (2007), Dani et al. (2008), Abernethy et al. (2008), Cesa-Bianchi and Lugosi (2009), Helmbold and Warmuth (2009), Koolen et al. (2010), Uchiya et al. (2010), Kale et al. (2010) and Audibert and Bubeck (2010). We provide simple proofs that recover most of the previous results. We propose new upper bounds for the semi-bandit game. Moreover we derive lower bounds for all three feedback assumptions. With the only exception of the bandit game, the upper and lower bounds are tight, up to a constant factor. Finally, we answer a question asked by Koolen et al. (2010) by showing that the exponentially weighted average forecaster is suboptimal against $L_{\infty}$ adversaries.

研究の動機と目的

行動がバイナリーベクトルであり、損失が線形的に集約される組み合わせ予測ゲームのミニマックスレギュレートを特徴づけること。
完全情報、セミバンディット、バンディットの3つのフィードバックモデルにおけるレギュレートを分析すること。$L_\infty$ および $L_2$ 損失制約を想定する。
最悪の行動集合 $\mathcal{S} \subset \{0,1\}^d$ におけるミニマックスレギュレートの最適なオーダーを特定すること。
$L_\infty$ 敵に対して指数加重平均予測器が最適であるかどうかという未解決の問題を解消すること。
Bregman射影とポテンシャルベース勾配降下法を用いて、既存のオンライン線形最適化戦略を統一的かつ一般化すること。

提案手法

Györgyら（2007）、Daniら（2008）など、先行研究のアルゴリズムを統合する一般戦略を提案。Bregman発散を用いて更新を確率単体上に射影することで、異なるフィードバックモデル下でのレギュレート解析を効率的に行える。
情報理論的下界を導出するために、Pinskerの不等式とKullback-Leibler発散の鎖則を用いる。
$d/2$ 個のペアドエキスパート上での $\alpha$-敵対的構成を用いて、困難な敵対的環境を構築する。各エキスパートは、$1/2$ および $1/2+\varepsilon$ のベルヌーイ損失を持つ。
$(-i,\alpha)$-および $\alpha$-敵対的分布間のKL発散を、鎖則を用いて計算し、Lemma 24により $\mathrm{KL} \leq \frac{16\varepsilon^2}{d} \mathbb{E}[\sum \mathbbm{1}_{I_{i,t}=\alpha_i}]$ と評価する。
すべての $\alpha \in \{1,2\}^{d/2}$ について平均化し、KL項の平方根の凹性を適用することで、下界を導出する。

実験結果

リサーチクエスチョン

RQ1完全情報、セミバンディット、バンディットフィードバック下で、$L_\infty$ および $L_2$ 損失制約のもとでの組み合わせ予測ゲームのミニマックスレギュレートは何か？
RQ2指数加重平均予測器は、組み合わせ予測ゲームにおいて $L_\infty$ 敵に対して最適か？
RQ33つのフィードバックモデル間で、レギュレートの上界と下界はどのように比較されるか。それらはタイトか？
RQ4ポテンシャルベース勾配降下フレームワークを用いて、オンライン線形最適化における既存の結果を統一的かつ一般化できるか？
RQ5行動集合 $\mathcal{S}$ は、最悪ケースのレギュレートにどのように寄与するか。$\mathcal{S}$ の構造はミニマックスレートにどのように影響するか？

主な発見

$L_2$ 制約下では、完全情報およびセミバンディット設定下でミニマックスレギュレートは $\Omega(\sqrt{dn})$ であり、定数倍の差異を除いて上界と一致する。
バンディット設定下では、ミニマックスレギュレートは $\Omega(\min(n, d\sqrt{n}))$ であり、定数因子の範囲でタイトである。
提案されたポテンシャルベース勾配降下法にBregman射影を組み合わせた手法は、オンライン線形最適化分野における複数の先行研究の結果を回復・一般化する。
指数加重平均予測器は、$L_\infty$ 敵に対して非最適であることが示され、Koolenら（2010）が提起した未解決問題が解決された。
下界は、$d/2$ 個のペアドエキスパート上での確率的敵対的構成を用い、Pinskerの不等式とKL発散の鎖則を用いて導出された。
解析により、$L_2$ 制約下では最悪ケースのレギュレートが $\sqrt{dn}$ のオーダーで増加し、$L_\infty$ 制約下では $\min(n, d\sqrt{n})$ のオーダーで増加することが示され、一致する上界によりタイトさが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。