QUICK REVIEW

[論文レビュー] Optimization, Learning, and Games with Predictable Sequences

Sasha Rakhlin, Karthik Sridharan|arXiv (Cornell University)|Dec 5, 2013

Advanced Bandit Algorithms Research参考文献 11被引用数 118

ひとこと要約

本稿では、予測可能な系列を活用して、ゼロサムゲームにおけるミニマックス均衡への収束速度 O((log T)/T) を達成するオンライン学習アルゴリズムである Optimistic Mirror Descent を提案する。この手法は、Mirror Prox を Hölder-滑らか関数へと拡張し、部分情報学習を可能にするとともに、凸プログラミングを用いた近似 Max Flow のための単純なアルゴリズムを提供する。

ABSTRACT

We provide several applications of Optimistic Mirror Descent, an online learning algorithm based on the idea of predictable sequences. First, we recover the Mirror Prox algorithm for offline optimization, prove an extension to Holder-smooth functions, and apply the results to saddle-point type problems. Next, we prove that a version of Optimistic Mirror Descent (which has a close relation to the Exponential Weights algorithm) can be used by two strongly-uncoupled players in a finite zero-sum matrix game to converge to the minimax equilibrium at the rate of O((log T)/T). This addresses a question of Daskalakis et al [6]. Further, we consider a partial information version of the problem. We then apply the results to convex programming and exhibit a simple algorithm for the approximate Max Flow problem.

研究の動機と目的

予測可能な系列に基づくオンライン学習アルゴリズムの開発を目的とし、最適化およびゲーム理論的応用に応用する。
オフライン最適化における Mirror Prox アルゴリズムの回復と拡張を目的とし、特に Lipschitz-連続でない Hölder-滑らか関数への拡張を対象とする。
強い非結合的プレイヤー動的下での有限ゼロサム行列ゲームにおいて、Optimistic Mirror Descent がミニマックス均衡に収束することを示す。
Daskalakis らが提起した、このようなゲームにおける収束速度に関する未解決問題に取り組む。
フレームワークを凸プログラミングおよび部分情報下での近似 Max Flow 問題に応用する。

提案手法

予測可能な系列の予測を統合することで収束を向上させるオンライン学習アルゴリズムとして、Optimistic Mirror Descent を使用する。
予測可能な系列構造を活用することで、オフライン最適化における Mirror Prox の回復にアルゴリズムを適用する。
解析における滑らかさの仮定を拡張することで、Hölder-滑らか関数を扱えるように手法を適応させる。
O((log T)/T) の収束速度を持つ、Optimistic Mirror Descent の一種を用いて、ゼロサムゲームにおけるミニマックス均衡への収束を確立する。
限られたフィードバック下での学習を可能にする、アルゴリズムの部分情報バージョンを導入する。
Max Flow 問題を鞍点問題に還元することで、フレームワークを凸プログラミングに応用する。

実験結果

リサーチクエスチョン

RQ1Optimistic Mirror Descent は、強い非結合的プレイヤーが関与するゼロサムゲームにおいて、O((log T)/T) の収束速度を達成できるか？
RQ2Mirror Prox は、標準的な Lipschitz-連続でない場合の Hölder-滑らか関数へとどのように拡張できるか？
RQ3予測可能な系列は、オンラインおよびオフライン最適化における収束性の向上に果たす役割は何か？
RQ4収束保証を維持したまま、アルゴリズムを部分情報設定に適応できるか？
RQ5このフレームワークを用いて、凸プログラミングにおける近似 Max Flow 問題のための単純で効率的なアルゴリズムを設計できるか？

主な発見

Optimistic Mirror Descent は、強い非結合的プレイヤーが関与する有限ゼロサム行列ゲームにおいて、ミニマックス均衡への収束速度 O((log T)/T) を達成する。
本稿では、Mirror Prox アルゴリズムを Hölder-滑らか関数へと拡張し、より広いクラスの鞍点問題への適用可能性を拡大する。
本手法は、Daskalakis らが提起した、非結合的プレイヤー設定における収束速度に関する未解決問題を解決する。
限られたフィードバック下での学習を可能にする、部分情報バージョンのアルゴリズムが開発された。
提案されたフレームワークを用いて、Max Flow 問題を凸プログラミング問題に還元することで、近似 Max Flow 問題のための単純なアルゴリズムが導出された。
理論的結果は、オンライン学習ダイナミクスの収束特性を向上させる予測可能な系列の使用に裏付けられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。