QUICK REVIEW

[論文レビュー] Fast Convergence of Regularized Learning in Games

Vasilis Syrgkanis, Alekh Agarwal|arXiv (Cornell University)|Jul 2, 2015

Advanced Bandit Algorithms Research参考文献 21被引用数 37

ひとこと要約

この論文は、レシエンシー・バイアスを組み込んだ正則化学習アルゴリズムのクラスを導入し、マルチプレイヤー正規形ゲームにおける収束速度の向上を達成する。ミラー・ディセントとフォローザ・レギュラー化リーダーを、重み付き履歴ウィンドウで変更することで、個々のレジットが $O(T^{-3/4})$ の速度で減少し、社会的総 welfare が $O(T^{-1})$ の速度で近似的最適値に収束することが示された。これは標準的な $O(T^{-1/2})$ のレートに対して顕著な改善である。

ABSTRACT

We show that natural classes of regularized learning algorithms with a form of recency bias achieve faster convergence rates to approximate efficiency and to coarse correlated equilibria in multiplayer normal form games. When each player in a game uses an algorithm from our class, their individual regret decays at $O(T^{-3/4})$, while the sum of utilities converges to an approximate optimum at $O(T^{-1})$--an improvement upon the worst case $O(T^{-1/2})$ rates. We show a black-box reduction for any algorithm in the class to achieve $ ilde{O}(T^{-1/2})$ rates against an adversary, while maintaining the faster rates against algorithms in the class. Our results extend those of [Rakhlin and Shridharan 2013] and [Daskalakis et al. 2014], who only analyzed two-player zero-sum games for specific algorithms.

研究の動機と目的

マルチプレイヤー・ゲームにおける標準的 no-regret 学習アルゴリズムの収束遅さを解決すること。これらは通常 $O(T^{-1/2})$ のレジットと福祉収束を達成する。
従来、2人ゼロサムゲームに限られていた高速収束結果を、一般のマルチプレイヤー正規形ゲームへと拡張すること。
レシエンシー・バイアスや安定性といった構造的性質が、分散学習ダイナミクスにおける高速収束を可能にする鍵要因であると特定すること。
類似アルゴリズムに対して高速レートを保ちつつ、敵対的相手に対しては $\tilde{O}(T^{-1/2})$ のレジットを維持するブラックボックス還元を提供すること。
4入札者による同時入札ゲームにおいて、提案されたアルゴリズムを Hedge と比較し、報酬、レジット、均衡収束の観点から実証的に検証すること。

提案手法

意思決定ルールにおいて最近の報酬観測をより重視するように設計された、レシエンシー・バイアスを組み込んだ正則化 no-regret アルゴリズムのクラスを提案する。
修正されたフォローザ・レギュラー化リーダー更新を用いる：$\mathbf{w}_i^T = \arg\max_{\mathbf{w} \in S_i} \left\langle \mathbf{w}, \sum_{t=1}^{T-1} \delta_i(\mathbf{w}^t) + \delta_i(\mathbf{w}^{T-1}) \right\rangle - \frac{\mathcal{R}(\mathbf{w})}{\eta} $、ここで $\delta_i$ は報酬の勾配である。
ラフガーデンのフレームワークからのパラメータ $\lambda$ と $\mu$ を用いて、ゲームの滑らかさ条件を導入し、プレイヤーの報酬の変化率を制限する。
安定性の議論を通じて、レジットバウンドを確立し、戦略変化の二乗和が正則化子とリプシッツ定数によって制御されることを示す。
任意の相手に対して $\tilde{O}(T^{-1/2})$ のレジットを維持しながら、有利な環境では高速レートを保つように、任意のアルゴリズムを変換するブラックボックス還元を導出する。
4入札者による同時入札ゲームをシミュレートし、報酬、レジット、均衡への収束という観点から、楽観的正則化学習と Hedge を比較する。

実験結果

リサーチクエスチョン

RQ1正則化学習アルゴリズムにレシエンシー・バイアスを組み込むことで、一般のマルチプレイヤー正規形ゲームにおいて、近似的効率性および粗い協調均衡への高速収束を達成できるか？
RQ2安定性やレシエンシー・バイアスといった構造的性質が、標準的な $O(T^{-1/2})$ のレジットバウンドを超える高速収束レートを可能にするのか？
RQ3ブラックボックス変換により、類似アルゴリズムに対して高速収束レートを保ちつつ、敵対的相手に対してもロバスト性を確保できるか？
RQ4実際の入札設定において、これらのアルゴリズムは報酬、レジット、均衡収束という観点から、標準的な Hedge と比べてどのように異なるか？
RQ5理論的 $O(T^{-1})$ の福祉収束レートは、2人ゼロサムケースに限らず、非ゼロサムでマルチプレイヤーのゲームにおいても成立するか？

主な発見

ゲーム内の報酬合計が、$O(T^{-1})$ の速度で近似的最適値に収束し、標準的な $O(T^{-1/2})$ の最悪ケースレートを上回る。
各プレイヤーの平均レジットが $O(T^{-3/4})$ の速度で減少し、標準的な $O(T^{-1/2})$ のバウンドを上回る。
提案されたアルゴリズムのクラスは、$\frac{\lambda}{1+\mu}\text{Opt} - O(1/T)$ の範囲内で福祉を達成する。ここで $\lambda$ と $\mu$ はゲームの滑らかさ条件から得られるパラメータである。
任意の相手に対して $\tilde{O}(T^{-1/2})$ のレジットを維持しながら、有利な環境では $O(T^{-1})$ の収束を保つブラックボックス還元が提供された。
2人ゼロサムゲームから一般のマルチプレイヤー・ゲームへの先行結果の一般化がなされ、高速収束ダイナミクスにおける隠れたモジュラリティが明らかになった。
4入札者による同時入札ゲームにおける実証的シミュレーションにより、楽観的正則化学習が Hedge より収束速度と報酬獲得の両面で優れていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。