QUICK REVIEW

[논문 리뷰] Global Convergence of Multi-Agent Policy Gradient in Markov Potential Games

Stefanos Leonardos, Will Overman|arXiv (Cornell University)|2021. 06. 03.

Reinforcement Learning in Robotics참고 문헌 35인용 수 24

한 줄 요약

이 논문은 상태에 따라 변하는 잠재함수를 통해 에이전트의 보상이 정렬되는 다중에이전트 마르코프 결정과정의 새로운 클래스인 마르코프 잠재게임(Markov Potential Games, MPGs)을 소개한다. 독립적 정책 기울기 하강법이 정규화된 정책 기울기의 경우 $\tilde{O}(1/\epsilon^2)$ 반복, 확률적 정책 기울기의 경우 $\tilde{O}(1/\epsilon^6)$ 반복 내에 전역 수렴하며, 이는 $\tilde{O}(\epsilon)$-내쉬 정책으로의 $\tilde{O}(1/\epsilon^2)$ 수렴 속도를 달성한다.

ABSTRACT

Potential games are arguably one of the most important and widely studied classes of normal form games. They define the archetypal setting of multi-agent coordination as all agent utilities are perfectly aligned with each other via a common potential function. Can this intuitive framework be transplanted in the setting of Markov Games? What are the similarities and differences between multi-agent coordination with and without state dependence? We present a novel definition of Markov Potential Games (MPG) that generalizes prior attempts at capturing complex stateful multi-agent coordination. Counter-intuitively, insights from normal-form potential games do not carry over as MPGs can consist of settings where state-games can be zero-sum games. In the opposite direction, Markov games where every state-game is a potential game are not necessarily MPGs. Nevertheless, MPGs showcase standard desirable properties such as the existence of deterministic Nash policies. In our main technical result, we prove fast convergence of independent policy gradient to Nash policies by adapting recent gradient dominance property arguments developed for single agent MDPs to multi-agent learning settings.

연구 동기 및 목표

정규형 잠재게임의 일반화를 상태에 따라 변하는 잠재함수를 통한 상태 기반 협력 메커니즘으로 확장하여 마르코프 게임에 적용하는 것.
협동 설정에서 다중에이전트 정책 기울기의 이론적 수렴 보장을 부족하게 하는 문제를 해결하는 것.
마르코프 잠재게임에서 내쉬 정책이 존재하며, 이를 결정론적으로 달성할 수 있음을 보장하는 것.
정규화된 정책 기울기와 확률적 정책 기울기의 두 경우 모두에서 독립적 정책 기울기의 다항 시간 수렴을 증명하여 근사 내쉬 정책을 얻는 것.

제안 방법

에이전트의 보상 변화가 잠재함수 $\Phi$ 의 변화와 일치하도록 하는 상태에 따라 변하는 잠재함수 $\Phi$ 를 통해 마르코프 잠재게임(MPGs)을 정의한다.
단일에이전트 MDP에서 유도된 기울기 지배성 성질을 다중에이전트 환경으로 확장하여 정책 기울기 수렴을 분석한다.
정규화된 정책 기울기의 경우 직접 매개변수화를, 확률적 정책 기울기의 경우 탐욕적 매개변수화를 사용한다.
에이전트 간 동시 업데이트를 통해 독립 학습 동역학을 모델링한다.
미래 방향으로 단일에이전트 강화학습에서의 기법들인 엔트로피 정규화 및 자연 정책 기울기 확장 기법들을 응용한다.
잠재함수 정렬을 통한 결정론적 내쉬 정책의 존재성과 같은 구조적 성질을 증명한다.

실험 결과

연구 질문

RQ1마르코프 게임에서 상태 기반 협력을 잠재함수를 통해 일반화된 정규형 잠재게임으로 형식화할 수 있는가?
RQ2정규형 잠재게임의 표준 성질들, 예를 들어 결정론적 내쉬 균형의 존재성 등이 마르코프 잠재게임으로까지 확장되는가?
RQ3독립적 정책 기울기 방법이 마르코프 잠재게임에서 내쉬 정책으로 전역 수렴할 수 있으며, 그 수렴 속도는 어떠한가?
RQ4정확한 기울기 대비 확률적 기울기와 유한 샘플 설정이 마르코프 잠재게임에서 수렴에 어떤 영향을 미치는가?

주요 결과

마르코프 잠재게임(MPGs)은 상태에 따라 변하는 잠재함수를 사용하여 정규형 잠재게임을 상태 의존적인 다중에이전트 마르코프 결정과정으로 일반화한다.
모든 MPG는 적어도 하나의 결정론적 내쉬 정책 프로파일을 포함하므로 순수 전략 균형의 존재를 보장한다.
정확한 기울기 하강법을 사용할 경우, 독립적 정책 기울기 방법은 $\mathcal{O}(1/\epsilon^2)$ 반복 내에 $\tilde{O}(\epsilon)$-내쉬 정책으로 수렴한다.
탐욕적 매개변수화를 사용하는 확률적 정책 기울기의 경우, $\mathcal{O}(1/\epsilon^6)$ 반복 내에 $\tilde{O}(\epsilon)$-내쉬 정책으로 수렴한다.
수렴 속도는 역근사 오차에 대해 다항식적으로 의존하므로, 협동적 다중에이전트 강화학습에 대해 강력한 이론적 보장을 수립한다.
반직관적으로도 MPG는 상태 게임이 0-합일 수 있으며, 잠재게임의 상태를 가진 모든 마르코프 게임이 반드시 MPG는 아니므로, 복잡한 구조적 특성을 지닌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.