QUICK REVIEW

[論文レビュー] Towards minimax policies for online linear optimization with bandit feedback

Sébastien Bubeck, Nicolò Cesa‐Bianchi|arXiv (Cornell University)|Feb 14, 2012

Advanced Bandit Algorithms Research参考文献 14被引用数 55

ひとこと要約

本稿では、ジョンの定理に基づく新規な探索分布を用いた指数重み法を用いて、オンライン線形最適化におけるバンドイットフィードバックに対して最小最大最適なアルゴリズムを提示している。有限の行動集合では $\sqrt{dn\log N}$ のレグレットバウンドを達成し、コン pact な集合では $d\sqrt{n\log n}$ を達成する。さらに、自己調和的バリア関数を用いたミラー降下を適用することで、ハイパーキューブおよびユークリッド球上で効率的かつ最小最大最適なレグレットを達成し、先行研究と比較して余分な $\sqrt{d}$ 要因を削減した。

ABSTRACT

We address the online linear optimization problem with bandit feedback. Our contribution is twofold. First, we provide an algorithm (based on exponential weights) with a regret of order $\sqrt{d n \log N}$ for any finite action set with $N$ actions, under the assumption that the instantaneous loss is bounded by 1. This shaves off an extraneous $\sqrt{d}$ factor compared to previous works, and gives a regret bound of order $d \sqrt{n \log n}$ for any compact set of actions. Without further assumptions on the action set, this last bound is minimax optimal up to a logarithmic factor. Interestingly, our result also shows that the minimax regret for bandit linear optimization with expert advice in $d$ dimension is the same as for the basic $d$-armed bandit with expert advice. Our second contribution is to show how to use the Mirror Descent algorithm to obtain computationally efficient strategies with minimax optimal regret bounds in specific examples. More precisely we study two canonical action sets: the hypercube and the Euclidean ball. In the former case, we obtain the first computationally efficient algorithm with a $d \sqrt{n}$ regret, thus improving by a factor $\sqrt{d \log n}$ over the best known result for a computationally efficient algorithm. In the latter case, our approach gives the first algorithm with a $\sqrt{d n \log n}$ regret, again shaving off an extraneous $\sqrt{d}$ compared to previous works.

研究の動機と目的

バンドイットフィードバック付きオンライン線形最適化のレグレットバウンドのギャップを埋め、対数要因を除いて最小最大最適性を達成すること。
ハイパーキューブやユークリッド球といった構造的行動集合におけるバンドイット線形最適化の計算効率の良い戦略を開発すること。
$d$ 次元におけるエキスパートアドバイス付きのバンドイット線形最適化の最小最大レグレットが、基本的な $d$ アームドバンディット問題と等価であることを示すこと。
適切に選ばれたバリア関数と摂動を用いたミラー降下が、特定の幾何的設定において最小最大最適なレグレットを達成できることを示すこと。

提案手法

ジョンの定理に基づく探索分布を用いた指数重み法を採用し、行動集合の均一なカバレッジを保証することで、推定分散を最小化する。
$\ell^2$-球上での自己調和的バリア関数 $F(x) = -\log(1 - \|x\|) - \|x\|$ を用いたミラー降下フレームワークを適用し、効率的な更新を実現する。
摂動スキームを導入し、二点フィードバックを用いた損失推定により、バンドイット設定における推定誤差を有界に保つ。
ブレグマン発散および凸共役解析を用いてレグレットバウンドを導出し、バリア関数のレジェンドル性を活用する。
境界効果に起因するレグレットを制御するため、切断された行動集合 $\mathcal{A}' = \{x : \|x\| \leq 1 - \gamma\}$ を導入する。
$\ell^2$-ノルム正規化による分散制御を用いた推定値 $\widetilde{z}_t$ を用い、損失推定子の集中性を保証する。

実験結果

リサーチクエスチョン

RQ1コン pact 行動集合に対して、バンドイットフィードバック付きオンライン線形最適化のレグレットが最小最大最適レート $\sqrt{dn\log n}$ にまで最小化可能か。
RQ2ジョンの定理に基づく探索を用いた Exp2 アルゴリズムは、有限行動集合に対して最適なレグレットを達成可能か。
RQ3ミラー降下はバンドイット設定に効果的に適応可能であり、ハイパーキューブやユークリッド球といった構造的集合で最小最大最適なレグレットを達成可能か。
RQ4$d$ 次元のエキスパートアドバイス付きのバンドイット線形最適化の最小最大レグレットは、基本的な $d$ アームドバンディット問題と等価か。

主な発見

任意のサイズ $N$ の有限行動集合に対して、提案アルゴリズムは $\sqrt{dn\log N}$ のレグレットバウンドを達成し、先行研究と比較して $\sqrt{d}$ 要因の改善を達成する。
コン pact 行動集合では、$d\sqrt{n\log n}$ のレグレットバウンドが得られ、対数要因を除いて最小最大最適である。
$\ell^2$-球上では、ミラー降下ベースのアルゴリズムが $\sqrt{dn\log n}$ のレグレットを達成し、従来の方法と比較して余分な $\sqrt{d}$ 要因を排除した。
ハイパーキューブ上では、$d\sqrt{n}$ のレグレットを達成し、これが初めての計算効率の良い最適レートを達成する手法である。
エキスパートアドバイス付きのバンドイット線形最適化における最小最大レグレットは、$d$ 次元の行動集合に対して、$d$ アームドバンディット問題と同一であり、両者とも $\sqrt{dn\log N}$ である。
解析により、自己調和的バリア関数を用いたミラー降下フレームワークの洗練された解析を通じて、$\sqrt{dn\log n}$ のレグレットバウンドが高確率で達成可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。