QUICK REVIEW

[論文レビュー] A Survey of Algorithms and Analysis for Adaptive Online Learning

H. Brendan McMahan|arXiv (Cornell University)|Mar 14, 2014

Advanced Bandit Algorithms Research参考文献 32被引用数 26

ひとこと要約

本稿では、FTRL（Follow-The-Regularized-Leader）、ミラー降下法（Mirror Descent）、デュアル・アベレージングの3つの適応的オンライン学習アルゴリズムを、適応的正則化の下で統一的・モジュラー的に分析する。これら3つの手法が等価であることを示し、各ラウンドで成り立つタイトなレグレットバウンドを確立。従来の結果（例：AdaGrad風のデータ依存バウンド）を一般化し、再利用可能な補題を分離し、適応的正則化の下でミラー降下法とFTRLの正確な等価性を証明する。

ABSTRACT

We present tools for the analysis of Follow-The-Regularized-Leader (FTRL), Dual Averaging, and Mirror Descent algorithms when the regularizer (equivalently, prox-function or learning rate schedule) is chosen adaptively based on the data. Adaptivity can be used to prove regret bounds that hold on every round, and also allows for data-dependent regret bounds as in AdaGrad-style algorithms (e.g., Online Gradient Descent with adaptive per-coordinate learning rates). We present results from a large number of prior works in a unified manner, using a modular and tight analysis that isolates the key arguments in easily re-usable lemmas. This approach strengthens pre-viously known FTRL analysis techniques to produce bounds as tight as those achieved by potential functions or primal-dual analysis. Further, we prove a general and exact equivalence between an arbitrary adaptive Mirror Descent algorithm and a correspond- ing FTRL update, which allows us to analyze any Mirror Descent algorithm in the same framework. The key to bridging the gap between Dual Averaging and Mirror Descent algorithms lies in an analysis of the FTRL-Proximal algorithm family. Our regret bounds are proved in the most general form, holding for arbitrary norms and non-smooth regularizers with time-varying weight.

研究の動機と目的

FTRL、ミラー降下法、デュアル・アベレージングの適応的オンライン学習アルゴリズムを、一つの理論的枠組みで統一的に分析すること。
再利用可能な補題を分離し、アルゴリズムや設定に一般化可能なモジュラーかつタイトなレグレット解析を開発すること。
任意の適応的ミラー降下法アルゴリズムと対応するFTRL更新の間の正確な等価性を証明し、ミラー降下法の解析をFTRLフレームワークを用いて可能にすること。
時間変動する、データに依存する正則化子を用いて、Tが未知または時間変動する状況でも各ラウンドTで成り立つレグレットバウンドを導出すること。
一般ノルムと非滑らか正則化子の下で、既存のバウンド（例：AdaGrad風のデータ依存レグレット）を回復・改善すること。

提案手法

本稿は、過去の損失 $ f_1, \dots, f_t $ に基づいて選択される適応的正則化子 $ r_t $ を持つ一般化FTRLフレームワークを導入。これにより、データ依存の学習率が可能になる。
任意のミラー降下法アルゴリズムが、対応する正則化子を用いたFTRL更新に再定式化できることを示し、適応的ミラー降下法とFTRL更新の一般等価性を証明する。
レグレットをBregman発散によりバウンドする安定性に基づく新しい手法を用い、連続する反復間の差を制御するためにStrong FTRL補題を活用する。
主な要素として、時変Bregman発散 $ \mathcal{B}_{r_t}(x^*, x_{t+1}) $ の使用と、最適化とレグレット解析を簡素化するための補助関数 $ \bar{f}_t $ への損失の分解が含まれる。
任意のノルムと非滑らか正則化子を扱い、初期正則化子 $ r_0 $ に指示関数を組み込むことで、実行可能集合を統合する。
安定性項の和が $ \sum_{t=1}^T \frac{1}{2}\|g_t\|_{(t),\star}^2 $ で有界であることを証明することで、タイトなレグレットバウンドを確立。ここで $ g_t $ は $ f_t $ の部分勾配である。

実験結果

リサーチクエスチョン

RQ1適応的正則化の下で、FTRL、ミラー降下法、デュアル・アベレージングのアルゴリズムを統一的に分析できるフレームワークを開発できるか？
RQ2適応的ミラー降下法とFTRLアルゴリズムの間の正確な関係は何か？この等価性は一般に証明可能か？
RQ3Tが未知または時間変動する状況でも、各ラウンドTで成り立つレグレットバウンドを導出できるか？
RQ4AdaGrad風の、座標毎に異なる学習率を持つデータ依存的レグレットを、一つのフレームワーク内で形式的に分析・一般化できるか？
RQ5再利用可能な補題を用いて、モジュラーかつタイトな解析を可能にし、先行研究の結果を回復または改善できるか？

主な発見

本稿では、任意の適応的ミラー降下法アルゴリズムと対応するFTRL更新の一般的かつ正確な等価性を証明し、ミラー降下法の解析をFTRLフレームワークを用いて可能にした。
すべてのラウンドTで成り立つタイトなレグレットバウンド $ \operatorname{Regret}(x^*) \leq \mathcal{B}_{r_{0:T}}(x^*, x_1) + \sum_{t=1}^T \frac{1}{2}\|g_t\|_{(t),\star}^2 $ を確立。これはAdaGrad風のバウンドを一般化する。
潜在関数法やプリムアル・デュアル解析からの先行結果を回復・改善し、それらと同等のタイトなバウンドを証明した。
任意のノルムと非滑らか正則化子、時変重みを扱えるため、広範なクラスのオンライン凸最適化問題に適用可能である。
重要な議論を再利用可能な補題（例：Strong FTRL補題）に分離し、異なるアルゴリズムや設定に応用可能である。
データ依存のレグレットバウンドが得られ、Tに対して非線形であるだけでなく、損失関数の幾何構造とコンパレータノルム $ \|x^*\| $ に適応する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。