QUICK REVIEW

[論文レビュー] Vortices Instead of Equilibria in MinMax Optimization: Chaos and Butterfly Effects of Online Learning in Zero-Sum Games

Yun Kuen Cheung, Georgios Piliouras|arXiv (Cornell University)|Jun 25, 2019

Advanced Bandit Algorithms Research被引用数 25

ひとこと要約

本稿は、定数ステップサイズを用いた乗法的重み更新（MWU）を含む、ゼロサムゲームにおけるオンライン学習ダイナミクスが、双対（報酬）空間においてリャプノフ混合を示すことを示しており、これは長期的な挙動が予測不可能であることを意味するが、時間平均として近似的ナッシュ均衡に収束することを伴う。この混合状態は、多様なFTRLアルゴリズム、異なるステップサイズ、一般化されたゲーム構造に対しても持続し、古典的なmaxmin均衡化の予測を根底から覆す。

ABSTRACT

We establish that algorithmic experiments in zero-sum games fail miserably to confirm the unique, sharp prediction of maxmin equilibration. Contradicting nearly a century of economic thought that treats zero-sum games nearly axiomatically as the exemplar symbol of economic stability, we prove that no meaningful prediction can be made about the day-to-day behavior of online learning dynamics in zero-sum games. Concretely, Multiplicative Weights Updates (MWU) with constant step-size is Lyapunov chaotic in the dual (payoff) space. Simply put, let's assume that an observer asks the agents playing Matching-Pennies whether they prefer Heads or Tails (and by how much in terms of aggregate payoff so far). The range of possible answers consistent with any arbitrary small set of initial conditions blows up exponentially with time everywhere in the payoff space. This result is robust both algorithmically as well as game theoretically: 1) Algorithmic robustness: Chaos is robust to agents using any of a general sub-family of Follow-the-Regularized-Leader (FTRL) algorithms, the well known regret-minimizing dynamics, even when agents mix-and-match dynamics, use different or slowly decreasing step-sizes. 2) Game theoretic robustness: Chaos is robust to all affine variants of zero-sum games (strictly competitive games), network variants with arbitrary large number of agents and even to competitive settings beyond these. Our result is in stark contrast with the time-average convergence of online learning to (approximate) Nash equilibrium, a result widely reported as (weak) convergence to equilibrium.

研究の動機と目的

ゼロサムゲームがオンライン学習下でmaxmin均衡に安定化するという長年の経済的仮定に挑戦すること。
ゼロサムゲームにおけるオンライン学習ダイナミクスが、予測可能で均衡化された挙動を示すのか、それとも混沌とした軌道を示すのかを調査すること。
さまざまな学習アルゴリズムやゲーム構造（アフィン変換付きの変種やネットワーク設定を含む）において、混沌たる挙動がどの程度頑健であるかを評価すること。
時間平均によるナッシュ均衡への収束と、安定的で予測可能な日次的挙動の不在という、表面的矛盾を解明すること。

提案手法

ゼロサムゲームにおけるオンライン学習ダイナミクスの感度を調べるため、報酬ベクトルの双対空間を分析すること。
定数ステップサイズを用いた乗法的重み更新（MWU）が報酬空間でリャプノフ混合を示すことを証明すること。
混合ダイナミクスや異なるステップサイズを含む、FTRLアルゴリズムの一般部分族への混沌たる挙動の拡張。
すべてのアフィン変換（特に厳密に競合的なゲームを含む）に対して、混沌たる挙動が保持されることを示すこと。
任意のエージェント数と広範な競合環境を有するネットワーク化ゼロサムゲームへの分析の拡張。
力学系理論を用いて、初期条件の微小な摂動からの軌道の指数的発散を形式化すること。

実験結果

リサーチクエスチョン

RQ1ゼロサムゲームにおけるオンライン学習は安定均衡に収束するのか、それとも報酬空間で混沌たる挙動を示すのか？
RQ2定数ステップサイズを用いたMWUの混沌たる挙動は、学習アルゴリズムやステップサイズスケジュールの変更に対してどの程度頑健か？
RQ3エージェントが異なるFTRLバージョンや混合学習ルールを使用しても、混沌たるダイナミクスは持続するか？
RQ4ゲーム構造のアフィン変換に対して、オンライン学習ダイナミクスの混沌たる挙動は不変か？
RQ5時間平均による近似的ナッシュ均衡への収束がある中で、混沌たる挙動はどのように解釈されるか？

主な発見

定数ステップサイズを用いた乗法的重み更新（MWU）は、双対（報酬）空間でリャプノフ混合を示し、これは任意の微小な摂動からの軌道の指数的発散を意味する。
混沌たる挙動は、混合ダイナミクス、異なるステップサイズ、徐々に減少するステップサイズを含む、すべてのFTRLアルゴリズムにわたって頑健である。
すべてのアフィン変換（特に厳密に競合的なゲームを含む）に対して混沌たる挙動が持続し、ゲーム理論的頑健性を示している。
任意のエージェント数を有するネットワーク化ゼロサムゲームにおいても混沌たる挙動が持続するため、2人ゲームに限らない広範な適用性を示している。
安定な均衡が存在しないにもかかわらず、時間平均による近似的ナッシュ均衡への収束は依然として成立し、長期的平均と短期的予測不能性の間のパラドックスを生じさせている。
初期条件の小さな集合と整合する報酬空間の結果の範囲は、時間の経過とともに指数的に増大し、日次予測は不可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。