QUICK REVIEW

[논문 리뷰] Open-ended Learning in Symmetric Zero-sum Games

David Balduzzi, Marta Garnelo|arXiv (Cornell University)|2019. 01. 23.

Game Theory and Applications참고 문헌 37인용 수 46

한 줄 요약

논문은 대칭 제로합 게임에서의 개방형 학습을 위한 기하학적 프레임워크(함수형 형식 게임과 게임스케이프)를 제시하고, 자기 플레이를 상회하는 다양하고 효과적인 에이전트 집단을 생성하기 위해 교정된 Nash PSRO_rN 알고리즘을 제시한다.

ABSTRACT

Zero-sum games such as chess and poker are, abstractly, functions that evaluate pairs of agents, for example labeling them `winner' and `loser'. If the game is approximately transitive, then self-play generates sequences of agents of increasing strength. However, nontransitive games, such as rock-paper-scissors, can exhibit strategic cycles, and there is no longer a clear objective -- we want agents to increase in strength, but against whom is unclear. In this paper, we introduce a geometric framework for formulating agent objectives in zero-sum games, in order to construct adaptive sequences of objectives that yield open-ended learning. The framework allows us to reason about population performance in nontransitive games, and enables the development of a new algorithm (rectified Nash response, PSRO_rN) that uses game-theoretic niching to construct diverse populations of effective agents, producing a stronger set of agents than existing algorithms. We apply PSRO_rN to two highly nontransitive resource allocation games and find that PSRO_rN consistently outperforms the existing alternatives.

연구 동기 및 목표

비전이성이 개선을 복잡하게 만드는 2인 제로합 설정에서 개방형 학습을 동기화한다.
기하학적 프레임워크(함수형 형식 게임 및 게임스케프)를 형식화하여 집단 수준 학습을 분석한다.
전략적 풍경을 확장하여 점진적으로 더 강하고 다양한 에이전트를 생성하는 알고리즘을 개발한다.

제안 방법

대칭 제로합 함수형 형식 게임(FFGs)을 정의하고 이를 전이적(transitive) 구성요소와 순환적(cyclic) 구성요소(정리 1)로 분해한다.
게임스케프(FGS)와 경험적 게임스케프(EGS)를 도입하여 집단 상호작용과 성능을 연구한다.
집단 성능과 효과적 다양성을 정의하여 집단 성장을 안내한다(정의 3 및 4).
PSRO_N(Nash 응답)을 제안하여 Nash 혼합에 대해 학습하고 PSRO_rN(교정된 Nash)을 제안하여 니칭으로 다양성을 확대하고 게임스케프의 확장을 보장한다(알고리즘 3 및 4).
양성 착취가 존재할 때 PSRO_N이 게임스케프를 확장하고 PSRO_rN이 양의 보복 방향에 집중하여 다양성을 강화한다(정리 6 및 7).
고도로 비전이성 자원 배분 게임인 Colonel Blotto와 differentiable Lotto와 같은 실험에서 이 방법을 시연한다(K 실험).

실험 결과

연구 질문

RQ1비전이성 제로합 게임에서 개방형 학습 목표를 어떻게 특징화하고 계산할 수 있는가?
RQ2집단 기반 목표와 다양성 중심 메커니즘이 전략적 풍경을 확장하고 자기 플레이를 능가하는가?
RQ3PSRO_rN 스타일의 니칭 방식이 비전이성 게임에서 PSRO_N이나 PSRO_U보다 더 강하고 다양한 에이전트 집단을 낳는가?
RQ4함수형 형식 게임과 게임스케프가 순환 구성요소 대 전이 구성요소를 진단하고 학습을 안내하는 데 어떻게 도움이 되는가?

주요 결과

PSRO_rN은 Blotto와 differentiable Lotto에서 일관되게 자기 플레이, PSRO_N, PSRO_U를 능가한다.
PSRO_rN으로 경험적 게임스케프를 확장하면 시간이 지남에 따라 더 큰 볼록 껍질(convex hull)이 형성되어 더 넓고 효과적인 전략 다양성이 나타난다.
양의 Nash-지원 상호작용에 기반한 효과적 다양성은 게임스케프가 확장될수록 증가하여 상대방의 더 풍부한 활용을 반영한다.
Nash 균형은 순환 게임에서 단일 최적 에이전트가 필요하지 않도록 안정적인 학습 기준을 제공한다.
교정된 Nash는 Nash-지원 에이전트의 양의 좌표를 증폭시켜 니치 다양성과 전략 공간의 더 넓은 탐색을 촉진한다.
이 접근 방식은 고정된 해법으로 수렴하기보다 에이전트 풀의 전략적 풍경을 지속적으로 확장하는 개방형 학습을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.