QUICK REVIEW

[論文レビュー] Unconstrained Online Linear Learning in Hilbert Spaces: Minimax Algorithms and Normal Approximations

H. Brendan McMahan, Francesco Orabona|arXiv (Cornell University)|Mar 3, 2014

Advanced Bandit Algorithms Research参考文献 20被引用数 36

ひとこと要約

本稿は、ヒルバート空間における非制約的オンライン線形学習のための新しいミニマックス枠組みを導入し、正規分布近似を用いて最適なリグレットバウンドを導出する。$T$ と $U$ が未知の場合、$\mathcal{O}\big{(}U\sqrt{T\log(U\sqrt{T}\log^{2}T+1)}\big{)}$ のリグレットを持つアルゴリズムを提案し、$\sqrt{\log\log T}$ 要素を除いて理論的下界に一致する。$T$ が既知の場合、定数要因を除いて最適なリグレットを達成する。

ABSTRACT

We study algorithms for online linear optimization in Hilbert spaces, focusing on the case where the player is unconstrained. We develop a novel characterization of a large class of minimax algorithms, recovering, and even improving, several previous results as immediate corollaries. Moreover, using our tools, we develop an algorithm that provides a regret bound of $\mathcal{O}\Big(U \sqrt{T \log(U \sqrt{T} \log^2 T +1)}\Big)$, where $U$ is the $L_2$ norm of an arbitrary comparator and both $T$ and $U$ are unknown to the player. This bound is optimal up to $\sqrt{\log \log T}$ terms. When $T$ is known, we derive an algorithm with an optimal regret bound (up to constant factors). For both the known and unknown $T$ case, a Normal approximation to the conditional value of the game proves to be the key analysis tool.

研究の動機と目的

非制約的オンライン線形最適化におけるミニマックス戦略を特徴付ける一般枠組みを構築すること。
時間枠 $T$ が既知・未知の両方において、対数要因を除いて最適なリグレットバウンドを導出すること。
正確なミニマックス戦略が計算困難な場合に、ゲームの条件付き値の解析のための緩和手法として正規分布近似技術を導入すること。
従来のミニマックスアルゴリズム（有界領域および非制約的設定を含む）を統一し、一つのミニマックス最適戦略の族に拡張すること。
非制約的設定において、$U$（コンパレータの $L_2$ ノルム）に最適なリグレット依存関係を達成するという未解決問題を解決すること。

提案手法

最適な敵が、過去の行動の和に対して常に直交するか、または常に平行にプレーする十分条件を導出する。また、プレイヤーの最適戦略は、常に過去の行動の和に平行にプレーすることを示す。
ゲームの条件付き値に対する正規分布近似を緩和手法として導入し、正確なミニマックス計算が困難な場合でも解析可能な形にすること。
正規分布に基づくポテンシャル関数を用いて、ガウスノイズの期待値を用いて閉形式での更新が得られる段階的最適戦略を設計する。
ラデマッハ複雑度フレームワークとゲーム理論的ミニマックス解析を用い、リグレットをコンパレータの双対ノルムと時間枠の関数としてバウンドすること。
近似されたポテンシャル関数の勾配に基づく再帰的更新ルールをプレイヤーの行動に適用し、緩和のもとでミニマックス最適性を保証すること。
集中不等式とガウス分布の性質（特にノイズ下での二次形式の最大値）を用いてバウンドを検証する。

実験結果

リサーチクエスチョン

RQ1ヒルバート空間における非制約的オンライン線形学習に対して、ミニマックス戦略の一般的特徴付けを導出可能か？
RQ2時間枠 $T$ と $U$ が未知のとき、$U$（コンパレータの $L_2$ ノルム）に最適なリグレット依存関係は何か？
RQ3ゲームの条件付き値に対する正規分布近似が、既知の下界に一致するタイトなリグレットバウンドをもたらすか？
RQ4有界領域と非制約的設定の両方においてミニマックス戦略を統一し、最適性を保ったまま統合できるか？
RQ5時間枠 $T$ の事前知識がなくとも、最適なリグレットを達成する適応的アルゴリズムを設計可能か？

主な発見

$T$ と $U$ が未知の場合、$\mathcal{O}\big{(}U\sqrt{T\log(U\sqrt{T}\log^{2}T+1)}\big{)}$ のリグレットバウンドが導出され、$\sqrt{\log\log T}$ 要素を除いて最適である。
$T$ が既知の場合、提案アルゴリズムは $\mathcal{O}\big{(}\|u\|\sqrt{2aT\log\big{(}\frac{\sqrt{aT}\|u\|}{\epsilon}+1\big{)}}\big{)}$ のリグレットバウンドを達成し、定数要因を除いて理論的下界に一致する。
正規分布近似技術は、正確なミニマックス戦略が計算困難であっても、最適なリグレットバウンドを達成するのに十分強いことが示された。
この枠組みは、従来の結果（StreeterとMcMahan, 2012の $\mathcal{O}(U\sqrt{T}\log UT)$）を回復・改善し、$U$ への依存を低減した。
最適プレイヤー戦略は、常に過去の行動の累積和に平行にプレーすること、最適敵戦略は、この和に対して常に平行または直交することを確立した。
有界領域と非制約的設定の間を滑らかに補間するミニマックス最適アルゴリズムの族を構築し、非制約的状況においても非自明なリグレットバウンドを達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。