Skip to main content
QUICK REVIEW

[논문 리뷰] Fast Convergence of Regularized Learning in Games

Vasilis Syrgkanis, Alekh Agarwal|arXiv (Cornell University)|2015. 07. 02.
Advanced Bandit Algorithms Research참고 문헌 21인용 수 37
한 줄 요약

이 논문은 다인자 정규형 게임에서 더 빠른 수렴을 달성하는 최근성 편향을 가진 정규화 학습 알고리즘의 클래스를 제안한다. 미러 강하와 정규화된 선수의 추종자 알고리즘을 가중치가 부여된 이력 창을 통해 수정함으로써, 저자들은 개인의 회귀가 $O(T^{-3/4})$ 속도로 감소하고 사회적 복지가 $O(T^{-1})$ 속도로 약한 최적값에 수렴함을 보여주며, 기존의 표준 $O(T^{-1/2})$ 속도보다 크게 향상됨을 입증한다.

ABSTRACT

We show that natural classes of regularized learning algorithms with a form of recency bias achieve faster convergence rates to approximate efficiency and to coarse correlated equilibria in multiplayer normal form games. When each player in a game uses an algorithm from our class, their individual regret decays at $O(T^{-3/4})$, while the sum of utilities converges to an approximate optimum at $O(T^{-1})$--an improvement upon the worst case $O(T^{-1/2})$ rates. We show a black-box reduction for any algorithm in the class to achieve $ ilde{O}(T^{-1/2})$ rates against an adversary, while maintaining the faster rates against algorithms in the class. Our results extend those of [Rakhlin and Shridharan 2013] and [Daskalakis et al. 2014], who only analyzed two-player zero-sum games for specific algorithms.

연구 동기 및 목표

  • 다인자 게임에서 표준 무회귀 학습 알고리즘의 느린 수렴 문제를 해결하기 위해, 일반적으로 $O(T^{-1/2})$ 회귀 및 복지 수렴을 달성하는 바람직하지 않은 상황을 개선한다.
  • 이전에 두 명의 대립자 간의 제로섬 게임에 국한되어 있던 빠른 수렴 결과를 일반적인 다인자 정규형 게임으로 확장한다.
  • 빠른 수렴을 가능하게 하는 핵심 구조적 성질로 최근성 편향과 안정성과 같은 성질을 규명한다.
  • 유사한 알고리즘에 대해 빠른 수렴 속도를 유지하면서도, 적대적 상대방에 대비해 $\tilde{O}(T^{-1/2})$ 회귀를 유지하는 블랙박스 감소를 제공한다.
  • 실제 4명의 입찰자가 참가하는 동시 경매 게임에서 제안된 알고리즘을 헤지와 비교하여 유틸리티, 회귀 및 균형 수렴 측면에서 실증적으로 검증한다.

제안 방법

  • 최근의 유틸리티 관측치를 결정 규칙에서 더 높은 가중치를 할당함으로써 최근성 편향을 포함한 정규화된 무회귀 알고리즘의 클래스를 제안한다.
  • 수정된 정규화된 선수의 추종자 업데이트를 사용: $\mathbf{w}_i^T = \arg\max_{\mathbf{w} \in S_i} \left\langle \mathbf{w}, \sum_{t=1}^{T-1} \delta_i(\mathbf{w}^t) + \delta_i(\mathbf{w}^{T-1}) \right\rangle - \frac{\mathcal{R}(\mathbf{w})}{\eta} $, 여기서 $\delta_i$는 유틸리티의 기울기이다.
  • Roughgarden의 프레임워크에서 유도된 파rameter $\lambda$와 $\mu$를 사용하여 게임의 미세한 변화 속도를 제한하는 부드러움 조건을 도입한다.
  • 안정성 논증을 통해 회귀 한계를 확립하여, 전략 변화의 제곱합이 정규화자와 리프시츠 상수에 의해 제어됨을 보여준다.
  • 임의의 상대방에 대해 $\tilde{O}(T^{-1/2})$ 회귀를 유지하면서도 유리한 환경에서의 더 빠른 $O(T^{-1})$ 수렴 속도를 유지하는 블랙박스 감소를 유도한다.
  • 4명의 입찰자가 참가하는 동시 경매 게임을 시뮬레이션하여 유틸리티, 회귀 및 균형 수렴 측면에서 낙관적인 정규화 학습 알고리즘과 헤지 간의 성능을 비교한다.

실험 결과

연구 질문

  • RQ1정규화 학습 알고리즘에 최근성 편향을 도입하면 일반적인 다인자 정규형 게임에서 약한 효율성과 코arse correlated 균형으로의 더 빠른 수렴을 달성할 수 있는가?
  • RQ2최근성 편향과 안정성과 같은 구조적 성질이 표준 $O(T^{-1/2})$ 회귀 한계를 초월해 더 빠른 수렴 속도를 가능하게 하는가?
  • RQ3블랙박스 변환은 비슷한 알고리즘에 대해 빠른 수렴 속도를 유지하면서도 적대적 상대방에 대한 강건성을 확보할 수 있는가?
  • RQ4실제 경매 환경에서 이러한 알고리즘은 표준 헤지 대비 유틸리티, 회귀 및 균형 수렴 측면에서 어떻게 비교되는가?
  • RQ5이론적으로 $O(T^{-1})$ 복지 수렴 속도가 두 명의 대립자 간 제로섬 게임 외의 비제로섬, 다인자 게임에서도 성립하는가?

주요 결과

  • 게임의 유틸리티 합은 $O(T^{-1})$ 속도로 약한 최적값에 수렴하며, 이는 표준 worst-case $O(T^{-1/2})$ 속도보다 향상된 것이다.
  • 각 플레이어의 평균 회귀는 $O(T^{-3/4})$ 속도로 감소하며, 이는 표준 $O(T^{-1/2})$ 한계보다 더 빠른 것이다.
  • 제안된 알고리즘 클래스는 $\frac{\lambda}{1+\mu}\text{Opt} - O(1/T)$ 수준의 복지 수준을 달성하며, 여기서 $\lambda$와 $\mu$는 게임의 부드러움 조건에서 유도된 파라미터이다.
  • 임의의 상대방에 대해 $\tilde{O}(T^{-1/2})$ 회귀를 유지하면서도 유리한 환경에서의 더 빠른 $O(T^{-1})$ 수렴 속도를 유지하는 블랙박스 감소가 제공된다.
  • 이 방법은 이전에 두 명의 대립자 간 제로섬 게임에 국한되어 있던 결과를 일반적인 다인자 게임으로 일반화하며, 빠른 수렴 역학의 숨겨진 모듈성 구조를 드러낸다.
  • 4명의 입찰자가 참가하는 동시 경매에서의 실증 시뮬레이션 결과, 낙관적인 정규화 학습 알고리즘이 헤지보다 수렴 속도와 유틸리티 확보 측면에서 뛰어나게 성능을 발휘한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.