QUICK REVIEW

[논문 리뷰] A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

Marc Lanctot, Vinícius Zambaldi|arXiv (Cornell University)|2017. 11. 02.

Reinforcement Learning in Robotics참고 문헌 61인용 수 142

한 줄 요약

본 논문은 Policy-Space Response Oracles (PSRO)와 Deep Cognitive Hierarchies (DCH)를 MARL에 도입하고, Joint-Policy Correlation (JPC)을 정량화하며, 메타전략 기반 정책 선택을 통해 일반화된 정책을 생성하고, 그리드월드와 Leduc Poker에서 확장 가능한 구현과 실험을 제시한다.

ABSTRACT

To achieve general intelligence, agents must learn how to interact with others in a shared environment: this is the challenge of multiagent reinforcement learning (MARL). The simplest form is independent reinforcement learning (InRL), where each agent treats its experience as part of its (non-stationary) environment. In this paper, we first observe that policies learned using InRL can overfit to the other agents' policies during training, failing to sufficiently generalize during execution. We introduce a new metric, joint-policy correlation, to quantify this effect. We describe an algorithm for general MARL, based on approximate best responses to mixtures of policies generated using deep reinforcement learning, and empirical game-theoretic analysis to compute meta-strategies for policy selection. The algorithm generalizes previous ones such as InRL, iterated best response, double oracle, and fictitious play. Then, we present a scalable implementation which reduces the memory requirement using decoupled meta-solvers. Finally, we demonstrate the generality of the resulting policies in two partially observable settings: gridworld coordination games and poker.

연구 동기 및 목표

다른 에이전트에 대해 독립적으로 학습된 RL 정책이 얼마나 과적합되는지(JPC) 정량화한다.
이전 방법들을 하나의 일반 MARL 프레임워크(PSRO)로 통합하고 깊은 RL 정책을 지원한다.
부분 관측성에서의 실용적 MARL을 위해 정책-공간 분해 메타해결책으로 확장 가능한 구현(DCH)을 제안한다.
그리드월드 협력 게임과 Leduc 포커에서 접근법의 일반성과 강건성을 시연한다.

제안 방법

메타-게임의 행동을 정책이 아닌 정책으로 두는 Policy-Space Response Oracles(PSRO)로 Double Oracle을 일반화한다.
깊은 강화학습을 사용하여 상대 정책의 혼합에 대한 최적 반응을 계산한다.
실험적 게임 이론 분석(EGTA)을 사용하여 정책 공간에 대한 메타전략을 계산한다.
PSRO의 병렬 고정 깊이 다중 프로세스 구현인 Deep Cognitive Hierarchies(DCH)를 도입하여 학습을 확장한다.
다양성 유도를 위해 탐색을 포함한 분리된 메타전략 해법자(regret-matching, Hedge, projected replicator dynamics)를 도입한다.
정책을 신경망으로 두고 중앙 보상 텐서 U^Π를 선택적으로 두는 중앙 집중식 학습, 분산 실행 설정을 제공한다.

실험 결과

연구 질문

RQ1독립적으로 학습된(다수의 에이전트) 정책이 과도하게 적합해지는 정도(JPC로 정량화)는 얼마나 큰가?
RQ2PSRO/DCH가 다양한 상대 행동 및 부분 관측성에서 일반적이고 강건한 정책을 생성할 수 있는가?
RQ3수렴성, 활용도( exploitable ), 일반화 간의 균형을 가장 잘 맞추는 메타전략 해법자와 탐색 수준은 무엇인가?
RQ4PSRO/DCH가 수렴 속도와 고정 봇에 대한 exploitable 측면에서 NFSP 및 CFR 기반 접근법과 비교하여 어떤 차이가 있는가?

주요 결과

독립 학습자들이 다른 독립적으로 학습된 정책과 결합될 때 JPC 손실이 상당히 크게 발생한다.
Deep Cognitive Hierarchies(DCH)는 JPC를 크게 감소시키며, 더 크고 부분적으로 관측된 맵에서 최대 71.7%의 감소를 달성하고 맵 크기가 커질수록 증가한다.
PSRO/DCH는 Leduc 포커에서 강건한 역전략을 생성하고, NFSP보다 초기 수렴이 빠르며 고정 봇에 대한 경쟁력 있는 exploitability를 보인다.
DCH는 메타-해결책자와 온라인 업데이트를 분리하여 PSRO의 대규모 버전 대비 계산 자원과 공간을 줄여 실용적인 다중에이전트 학습을 가능하게 한다.
기저선과 비교하여 PSRO/DCH는 exploit과 일반화 사이의 균형을 맞추며, 단일 균형에 과적합하기보다 다양한 상대에 적응하는 정책을 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.