QUICK REVIEW

[논문 리뷰] Vortices Instead of Equilibria in MinMax Optimization: Chaos and Butterfly Effects of Online Learning in Zero-Sum Games

Yun Kuen Cheung, Georgios Piliouras|arXiv (Cornell University)|2019. 06. 25.

Advanced Bandit Algorithms Research인용 수 25

한 줄 요약

이 논문은 상수 단계 크기를 가진 다수의 가중치 업데이트(MWU)를 포함한 제로섬 게임에서의 온라인 학습 역학이 이중(지ay) 공간에서 리아프노프 난류를 보이며, 시간 평균이 약한 내쉬 균형으로 수렴함에도 불구하고 장기적 행동이 예측 불가능하다는 것을 보여준다. 이 난류는 다양한 FTRL 알고리즘, 변화하는 단계 크기, 일반화된 게임 구조를 통해 지속되며, 전통적인 최대최소 균형화 예측을 뒤엎는다.

ABSTRACT

We establish that algorithmic experiments in zero-sum games fail miserably to confirm the unique, sharp prediction of maxmin equilibration. Contradicting nearly a century of economic thought that treats zero-sum games nearly axiomatically as the exemplar symbol of economic stability, we prove that no meaningful prediction can be made about the day-to-day behavior of online learning dynamics in zero-sum games. Concretely, Multiplicative Weights Updates (MWU) with constant step-size is Lyapunov chaotic in the dual (payoff) space. Simply put, let's assume that an observer asks the agents playing Matching-Pennies whether they prefer Heads or Tails (and by how much in terms of aggregate payoff so far). The range of possible answers consistent with any arbitrary small set of initial conditions blows up exponentially with time everywhere in the payoff space. This result is robust both algorithmically as well as game theoretically: 1) Algorithmic robustness: Chaos is robust to agents using any of a general sub-family of Follow-the-Regularized-Leader (FTRL) algorithms, the well known regret-minimizing dynamics, even when agents mix-and-match dynamics, use different or slowly decreasing step-sizes. 2) Game theoretic robustness: Chaos is robust to all affine variants of zero-sum games (strictly competitive games), network variants with arbitrary large number of agents and even to competitive settings beyond these. Our result is in stark contrast with the time-average convergence of online learning to (approximate) Nash equilibrium, a result widely reported as (weak) convergence to equilibrium.

연구 동기 및 목표

제로섬 게임에서 온라인 학습이 이루어질 경우 장기간에 걸쳐 최대최소 균형으로 수렴한다는 오랜 경제적 가정에 도전하기 위해.
제로섬 게임에서의 온라인 학습 역학이 예측 가능한 균형 행동을 보이는지 아니면 난류적 궤적을 보이는지 조사하기 위해.
다양한 학습 알고리즘과 게임 구조, 특히 아핀 변환 및 네트워크 기반 설정을 포함한 경우에 난류의 강건성을 평가하기 위해.
시간 평균이 내쉬 균형으로 수렴하는 데 반해 안정적이고 예측 가능한 일일 동역학이 존재하지 않는다는 명백한 모순을 설명하기 위해.

제안 방법

제로섬 게임에서의 온라인 학습 역학의 민감도를 분석하기 위해 지ay 벡터 공간을 분석한다.
상수 단계 크기를 가진 다수의 가중치 업데이트(MWU)가 지급 공간에서 리아프노프 난류를 보임을 증명한다.
혼합 동역학과 다양한 단계 크기를 포함한 일반적인 FTRL 알고리즘 하위군에 대해 난류 결과를 확장한다.
모든 아핀 변환, 특히 엄격하게 경쟁적인 게임을 포함한 제로섬 게임에 대해 난류의 강건성을 입증한다.
임의의 에이전트 수와 더 넓은 경쟁 환경을 가진 네트워크 기반 제로섬 게임으로 분석을 확장한다.
역학 시스템 이론을 사용하여 임의로 작은 초기 조건 변화로부터 궤적의 지수적 분리 현상을 수학적으로 형식화한다.

실험 결과

연구 질문

RQ1제로섬 게임에서의 온라인 학습은 안정된 균형으로 수렴하는가, 아니면 지급 공간에서 난류적 행동을 보이는가?
RQ2상수 단계 크기를 가진 MWU의 난류 행동은 학습 알고리즘과 단계 크기 스케줄의 변화에 대해 얼마나 강건한가?
RQ3에이전트가 서로 다른 FTRL 변형 또는 혼합 학습 규칙을 사용할 경우 난류 동역학이 지속될 수 있는가?
RQ4게임 구조의 아핀 변환에 대해 온라인 학습 동역학의 난류가 불변하는가?
RQ5시간 평균 수렴이 약한 내쉬 균형으로 이루어지지만 안정된 균형이 존재하지 않는 상황에서 난류의 존재는 어떻게 설명할 수 있는가?

주요 결과

상수 단계 크기를 가진 다수의 가중치 업데이트(MWU)는 이중(지급) 공간에서 리아프노프 난류를 보이며, 이는 임의로 작은 초기 조건 변화로부터 궤적의 지수적 분리가 발생함을 의미한다.
이 난류 행동은 다수의 FTRL 알고리즘 전반에 걸쳐 강건하며, 혼합 동역학, 다양한 단계 크기, 서서히 감소하는 단계 크기를 포함한다.
모든 아핀 변환, 특히 엄격하게 경쟁적인 게임을 포함한 제로섬 게임에 대해 난류가 지속되며, 이는 게임 이론적으로 강건함을 보여준다.
임의의 수의 에이전트를 가진 네트워크 기반 제로섬 게임에서도 난류가 지속되며, 이는 이중 플레이어 설정을 초월한 광범위한 적용 가능성을 시사한다.
안정된 균형이 존재하지 않음에도 불구하고 시간 평균 수렴이 여전히 약한 내쉬 균형으로 이루어지며, 장기적 평균과 단기적 예측 불가능성 사이의 역설을 만들어낸다.
임의의 작은 초기 조건 집합과 일치하는 지급 공간 결과의 범위는 시간이 지남에 따라 지수적으로 증가하여 일일 예측이 불가능해진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.