QUICK REVIEW

[논문 리뷰] No-regret learning dynamics for extensive-form correlated and coarse correlated equilibria.

Andrea Celli, Alberto Marchesi|arXiv (Cornell University)|2020. 04. 01.

Game Theory and Applications인용 수 4

한 줄 요약

이 논문은 일반합 게임의 n명 참가자에 대한 광범위형 상호연결된(EFCE) 및 광역 상호연결된 균형(EFCCE)에 대해 카운터패널리즘 회귀 최소화(CFR) 프레임워크를 사용하여 무결함 없는 학습 역학을 제안한다. 광범위형 게임에 특화된 내부 결함의 새로운 개념을 제안하고 EFCE를 위한 효율적인 무내부결함 알고리즘을 개발하며, 표준 CFR가 수정 없이도 EFCCE로 수렴함을 보여준다.

ABSTRACT

Recently, there has been growing interest around less-restrictive solution concepts than Nash equilibrium in extensive-form games, with significant effort towards the computation of extensive-form correlated equilibrium (EFCE) and extensive-form coarse correlated equilibrium (EFCCE). In this paper, we show how to leverage the popular counterfactual regret minimization (CFR) paradigm to induce simple no-regret dynamics that converge to the set of EFCEs and EFCCEs in an n-player general-sum extensive-form games. For EFCE, we define a notion of internal regret suitable for extensive-form games and exhibit an efficient no-internal-regret algorithm. These results complement those for normal-form games introduced in the seminal paper by Hart and Mas-Colell. For EFCCE, we show that no modification of CFR is needed, and that in fact the empirical frequency of play generated when all the players use the original CFR algorithm converges to the set of EFCCEs.

연구 동기 및 목표

일반합 게임에서 광범위형 상호연결된 균형(EFCE) 및 광역 상호연결된 균형(EFCCE)으로의 무결함 없는 학습 역학을 확장하기.
n명 참가자 광범위형 게임에서 EFCE 및 EFCCE를 계산하기 위한 효율적이고 실용적인 알고리즘이 부족한 문제를 해결하기.
카운터패널리즘 회귀 최소화(CFR) 프레임워크를 수정하여 EFCE 및 EFCCE로의 수렴을 가능하게 하기 위해 새로운 결함 정의와 알고리즘을 도입하기.
정규형 게임에서의 유명한 Hart와 Mas-Colell의 결과를 광범위형 게임으로 일반화하기.

제안 방법

광범위형 게임에 특화된 내부 결함의 새로운 개념을 도입하여, 이 분야에서 무내부결함 학습이 가능하도록 한다.
광범위형 게임의 구조와 카운터패널리즘 회귀 최소화를 활용하는 효율적인 무내부결함 알고리즘을 개발한다.
모든 플레이어가 표준 CFR를 사용할 때 생성되는 실제 빈도가 어떤 수정 없이도 EFCCE 집합으로 수렴함을 보여준다.
광범위형 게임의 순차적 의사결정 구조와 상호연결된 균형 개념에 부합하는 방식으로 카운터패널리즘 회귀를 계산하고 최소화한다.
광범위형 게임 설정에서의 결함 최소화 원리를 사용하여 EFCE 및 EFCCE에 대한 이론적 수렴 보장을 수립한다.
정보 집합과 순차적 의사결정 노드를 다루는 데 적합한 방식으로 결함 최소화 프레임워크를 수정하여 상호연결된 행동을 지원한다.

실험 결과

연구 질문

RQ1n명 참가자 일반합 게임에서 광범위형 상호연결된 균형(EFCE)으로의 무결함 없는 학습 역학을 확장할 수 있는가?
RQ2광범위형 게임 맥락에서 EFCE로의 수렴을 지원하는 내부 결함의 적절한 정의는 무엇인가?
RQ3표준 CFR 알고리즘이 수정 없이 광범위형 게임에서 EFCCE로 수렴하는가?
RQ4카운터패널리즘 회귀 최소화 프레임워크를 어떻게 수정하여 순차적 게임에서 상호연결된 균형 개념을 지원할 수 있는가?
RQ5Hart와 Mas-Colell의 정규형 게임에서의 이론적 결과를 광범위형 게임으로 일반화할 수 있는가?

주요 결과

광범위형 게임에 대해 내부 결함의 새로운 개념을 정의하여 EFCE 집합으로 수렴하는 무내부결함 학습 알고리즘 설계가 가능해졌다.
CFR 프레임워크 내에서 작동하며 n명 참가자 일반합 광범위형 게임에서 EFCE로 수렴하는 효율적인 무내부결함 알고리즘을 제안하였다.
모든 플레이어가 표준 CFR를 사용할 때 생성되는 실제 빈도가 어떤 알고리즘 수정 없이도 EFCCE 집합으로 수렴한다.
카운터패널리즘 회귀 최소화의 성질과 게임 트리의 구조를 통해 EFCCE로의 수렴이 입증되었다.
결함 최소화의 적용 범위가 순차적 게임에서 상호연결된 균형으로 확장되었으며, 이는 Hart와 Mas-Colell의 정규형 게임 결과를 반영한다.
복잡한 실제 광범위형 게임에서 EFCE 및 EFCCE를 계산하고 학습하는 데 실용적이고 이론적으로 타당한 방법을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.