QUICK REVIEW

[논문 리뷰] Fast Convergence of Regularized Learning in Games

Vasilis Syrgkanis, Alekh Agarwal|arXiv (Cornell University)|2015. 07. 02.

Advanced Bandit Algorithms Research참고 문헌 21인용 수 37

한 줄 요약

이 논문은 다인자 정규형 게임에서 더 빠른 수렴을 달성하는 최근성 편향을 가진 정규화 학습 알고리즘의 클래스를 제안한다. 미러 강하와 정규화된 선수의 추종자 알고리즘을 가중치가 부여된 이력 창을 통해 수정함으로써, 저자들은 개인의 회귀가 $O(T^{-3/4})$ 속도로 감소하고 사회적 복지가 $O(T^{-1})$ 속도로 약한 최적값에 수렴함을 보여주며, 기존의 표준 $O(T^{-1/2})$ 속도보다 크게 향상됨을 입증한다.

ABSTRACT

We show that natural classes of regularized learning algorithms with a form of recency bias achieve faster convergence rates to approximate efficiency and to coarse correlated equilibria in multiplayer normal form games. When each player in a game uses an algorithm from our class, their individual regret decays at $O(T^{-3/4})$, while the sum of utilities converges to an approximate optimum at $O(T^{-1})$--an improvement upon the worst case $O(T^{-1/2})$ rates. We show a black-box reduction for any algorithm in the class to achieve $ ilde{O}(T^{-1/2})$ rates against an adversary, while maintaining the faster rates against algorithms in the class. Our results extend those of [Rakhlin and Shridharan 2013] and [Daskalakis et al. 2014], who only analyzed two-player zero-sum games for specific algorithms.

연구 동기 및 목표

다인자 게임에서 표준 무회귀 학습 알고리즘의 느린 수렴 문제를 해결하기 위해, 일반적으로 $O(T^{-1/2})$ 회귀 및 복지 수렴을 달성하는 바람직하지 않은 상황을 개선한다.
이전에 두 명의 대립자 간의 제로섬 게임에 국한되어 있던 빠른 수렴 결과를 일반적인 다인자 정규형 게임으로 확장한다.
빠른 수렴을 가능하게 하는 핵심 구조적 성질로 최근성 편향과 안정성과 같은 성질을 규명한다.
유사한 알고리즘에 대해 빠른 수렴 속도를 유지하면서도, 적대적 상대방에 대비해 $\tilde{O}(T^{-1/2})$ 회귀를 유지하는 블랙박스 감소를 제공한다.
실제 4명의 입찰자가 참가하는 동시 경매 게임에서 제안된 알고리즘을 헤지와 비교하여 유틸리티, 회귀 및 균형 수렴 측면에서 실증적으로 검증한다.

제안 방법

최근의 유틸리티 관측치를 결정 규칙에서 더 높은 가중치를 할당함으로써 최근성 편향을 포함한 정규화된 무회귀 알고리즘의 클래스를 제안한다.
수정된 정규화된 선수의 추종자 업데이트를 사용: $\mathbf{w}_i^T = \arg\max_{\mathbf{w} \in S_i} \left\langle \mathbf{w}, \sum_{t=1}^{T-1} \delta_i(\mathbf{w}^t) + \delta_i(\mathbf{w}^{T-1}) \right\rangle - \frac{\mathcal{R}(\mathbf{w})}{\eta} $, 여기서 $\delta_i$는 유틸리티의 기울기이다.
Roughgarden의 프레임워크에서 유도된 파rameter $\lambda$와 $\mu$를 사용하여 게임의 미세한 변화 속도를 제한하는 부드러움 조건을 도입한다.
안정성 논증을 통해 회귀 한계를 확립하여, 전략 변화의 제곱합이 정규화자와 리프시츠 상수에 의해 제어됨을 보여준다.
임의의 상대방에 대해 $\tilde{O}(T^{-1/2})$ 회귀를 유지하면서도 유리한 환경에서의 더 빠른 $O(T^{-1})$ 수렴 속도를 유지하는 블랙박스 감소를 유도한다.
4명의 입찰자가 참가하는 동시 경매 게임을 시뮬레이션하여 유틸리티, 회귀 및 균형 수렴 측면에서 낙관적인 정규화 학습 알고리즘과 헤지 간의 성능을 비교한다.

실험 결과

연구 질문

RQ1정규화 학습 알고리즘에 최근성 편향을 도입하면 일반적인 다인자 정규형 게임에서 약한 효율성과 코arse correlated 균형으로의 더 빠른 수렴을 달성할 수 있는가?
RQ2최근성 편향과 안정성과 같은 구조적 성질이 표준 $O(T^{-1/2})$ 회귀 한계를 초월해 더 빠른 수렴 속도를 가능하게 하는가?
RQ3블랙박스 변환은 비슷한 알고리즘에 대해 빠른 수렴 속도를 유지하면서도 적대적 상대방에 대한 강건성을 확보할 수 있는가?
RQ4실제 경매 환경에서 이러한 알고리즘은 표준 헤지 대비 유틸리티, 회귀 및 균형 수렴 측면에서 어떻게 비교되는가?
RQ5이론적으로 $O(T^{-1})$ 복지 수렴 속도가 두 명의 대립자 간 제로섬 게임 외의 비제로섬, 다인자 게임에서도 성립하는가?

주요 결과

게임의 유틸리티 합은 $O(T^{-1})$ 속도로 약한 최적값에 수렴하며, 이는 표준 worst-case $O(T^{-1/2})$ 속도보다 향상된 것이다.
각 플레이어의 평균 회귀는 $O(T^{-3/4})$ 속도로 감소하며, 이는 표준 $O(T^{-1/2})$ 한계보다 더 빠른 것이다.
제안된 알고리즘 클래스는 $\frac{\lambda}{1+\mu}\text{Opt} - O(1/T)$ 수준의 복지 수준을 달성하며, 여기서 $\lambda$와 $\mu$는 게임의 부드러움 조건에서 유도된 파라미터이다.
임의의 상대방에 대해 $\tilde{O}(T^{-1/2})$ 회귀를 유지하면서도 유리한 환경에서의 더 빠른 $O(T^{-1})$ 수렴 속도를 유지하는 블랙박스 감소가 제공된다.
이 방법은 이전에 두 명의 대립자 간 제로섬 게임에 국한되어 있던 결과를 일반적인 다인자 게임으로 일반화하며, 빠른 수렴 역학의 숨겨진 모듈성 구조를 드러낸다.
4명의 입찰자가 참가하는 동시 경매에서의 실증 시뮬레이션 결과, 낙관적인 정규화 학습 알고리즘이 헤지보다 수렴 속도와 유틸리티 확보 측면에서 뛰어나게 성능을 발휘한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.