Skip to main content
QUICK REVIEW

[논문 리뷰] Open-ended Learning in Symmetric Zero-sum Games

David Balduzzi, Marta Garnelo|arXiv (Cornell University)|2019. 01. 23.
Game Theory and Applications참고 문헌 37인용 수 46
한 줄 요약

논문은 대칭 제로합 게임에서의 개방형 학습을 위한 기하학적 프레임워크(함수형 형식 게임과 게임스케이프)를 제시하고, 자기 플레이를 상회하는 다양하고 효과적인 에이전트 집단을 생성하기 위해 교정된 Nash PSRO_rN 알고리즘을 제시한다.

ABSTRACT

Zero-sum games such as chess and poker are, abstractly, functions that evaluate pairs of agents, for example labeling them `winner' and `loser'. If the game is approximately transitive, then self-play generates sequences of agents of increasing strength. However, nontransitive games, such as rock-paper-scissors, can exhibit strategic cycles, and there is no longer a clear objective -- we want agents to increase in strength, but against whom is unclear. In this paper, we introduce a geometric framework for formulating agent objectives in zero-sum games, in order to construct adaptive sequences of objectives that yield open-ended learning. The framework allows us to reason about population performance in nontransitive games, and enables the development of a new algorithm (rectified Nash response, PSRO_rN) that uses game-theoretic niching to construct diverse populations of effective agents, producing a stronger set of agents than existing algorithms. We apply PSRO_rN to two highly nontransitive resource allocation games and find that PSRO_rN consistently outperforms the existing alternatives.

연구 동기 및 목표

  • 비전이성이 개선을 복잡하게 만드는 2인 제로합 설정에서 개방형 학습을 동기화한다.
  • 기하학적 프레임워크(함수형 형식 게임 및 게임스케프)를 형식화하여 집단 수준 학습을 분석한다.
  • 전략적 풍경을 확장하여 점진적으로 더 강하고 다양한 에이전트를 생성하는 알고리즘을 개발한다.

제안 방법

  • 대칭 제로합 함수형 형식 게임(FFGs)을 정의하고 이를 전이적(transitive) 구성요소와 순환적(cyclic) 구성요소(정리 1)로 분해한다.
  • 게임스케프(FGS)와 경험적 게임스케프(EGS)를 도입하여 집단 상호작용과 성능을 연구한다.
  • 집단 성능과 효과적 다양성을 정의하여 집단 성장을 안내한다(정의 3 및 4).
  • PSRO_N(Nash 응답)을 제안하여 Nash 혼합에 대해 학습하고 PSRO_rN(교정된 Nash)을 제안하여 니칭으로 다양성을 확대하고 게임스케프의 확장을 보장한다(알고리즘 3 및 4).
  • 양성 착취가 존재할 때 PSRO_N이 게임스케프를 확장하고 PSRO_rN이 양의 보복 방향에 집중하여 다양성을 강화한다(정리 6 및 7).
  • 고도로 비전이성 자원 배분 게임인 Colonel Blotto와 differentiable Lotto와 같은 실험에서 이 방법을 시연한다(K 실험).

실험 결과

연구 질문

  • RQ1비전이성 제로합 게임에서 개방형 학습 목표를 어떻게 특징화하고 계산할 수 있는가?
  • RQ2집단 기반 목표와 다양성 중심 메커니즘이 전략적 풍경을 확장하고 자기 플레이를 능가하는가?
  • RQ3PSRO_rN 스타일의 니칭 방식이 비전이성 게임에서 PSRO_N이나 PSRO_U보다 더 강하고 다양한 에이전트 집단을 낳는가?
  • RQ4함수형 형식 게임과 게임스케프가 순환 구성요소 대 전이 구성요소를 진단하고 학습을 안내하는 데 어떻게 도움이 되는가?

주요 결과

  • PSRO_rN은 Blotto와 differentiable Lotto에서 일관되게 자기 플레이, PSRO_N, PSRO_U를 능가한다.
  • PSRO_rN으로 경험적 게임스케프를 확장하면 시간이 지남에 따라 더 큰 볼록 껍질(convex hull)이 형성되어 더 넓고 효과적인 전략 다양성이 나타난다.
  • 양의 Nash-지원 상호작용에 기반한 효과적 다양성은 게임스케프가 확장될수록 증가하여 상대방의 더 풍부한 활용을 반영한다.
  • Nash 균형은 순환 게임에서 단일 최적 에이전트가 필요하지 않도록 안정적인 학습 기준을 제공한다.
  • 교정된 Nash는 Nash-지원 에이전트의 양의 좌표를 증폭시켜 니치 다양성과 전략 공간의 더 넓은 탐색을 촉진한다.
  • 이 접근 방식은 고정된 해법으로 수렴하기보다 에이전트 풀의 전략적 풍경을 지속적으로 확장하는 개방형 학습을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.