[논문 리뷰] Probabilistic Recursive Reasoning for Multi-Agent Reinforcement Learning
PR2를 소개하는 확률적 재귀 추론 프레임워크로, 다중 에이전트 심층 강화학습에서 상대의 조건부 정책을 모델링하기 위해 변분 베이지를 사용하고, 자기 대결(self-play)에서 수렴 보장을 갖춘 분산형 PR2-Q 및 PR2-AC를 도출한다.
Humans are capable of attributing latent mental contents such as beliefs or intentions to others. The social skill is critical in daily life for reasoning about the potential consequences of others' behaviors so as to plan ahead. It is known that humans use such reasoning ability recursively by considering what others believe about their own beliefs. In this paper, we start from level-$1$ recursion and introduce a probabilistic recursive reasoning (PR2) framework for multi-agent reinforcement learning. Our hypothesis is that it is beneficial for each agent to account for how the opponents would react to its future behaviors. Under the PR2 framework, we adopt variational Bayes methods to approximate the opponents' conditional policies, to which each agent finds the best response and then improve their own policies. We develop decentralized-training-decentralized-execution algorithms, namely PR2-Q and PR2-Actor-Critic, that are proved to converge in the self-play scenarios when there exists one Nash equilibrium. Our methods are tested on both the matrix game and the differential game, which have a non-trivial equilibrium where common gradient-based methods fail to converge. Our experiments show that it is critical to reason about how the opponents believe about what the agent believes. We expect our work to contribute a new idea of modeling the opponents to the multi-agent reinforcement learning community.
연구 동기 및 목표
- 에이전트의 미래 행동에 상대가 어떻게 반응하는지 모델링하기 위해 재귀적 추론의 사용을 동기 부여한다.
- 상대의 에이전트에 대한 신념을 학습된 조건부 정책을 통해 반영하는 확률적 프레임워크(PR2)를 제안한다.
- 이 프레임워크를 기반으로 분산 학습-분산 실행 알고리즘(PR2-Q 및 PR2-AC)을 개발한다.
- 하나의 내쉬 균형이 존재할 때 자기 대결에서의 수렴 보장을 이론적으로 제공한다.
- 매트릭스 게임, 미분 게임, 입자 세계 환경에서 기준 방법보다 개선된 성능을 보여준다.
제안 방법
- 에이전트의 행동에 상대가 어떻게 반응하는지를 포착하는 레벨-1 재귀 분해로 공동 정책을 모델링한다.
- 상대의 조건부 정책을 변분 추론을 사용하여 근사화하며, 기호 rho^{-i}_{phi^{-i}}(a^{-i}|s,a^{i})로 표기한다.
- 상대의 조건부 정책 하에서 기대 Q 값을 포함하는 다중 에이전트 정책 경사를 도출한다(PR2-GD 업데이트).
- 상대의 정책 매개변수에 접근할 필요가 없는 분산 학습-분산 실행 알고리즘(PR2-AC 및 PR2-Q)을 제공한다.
- 단일 내쉬 균형이 존재할 때 PR2 소프트 가치 반복에 대한 수축 연산자를 통해 자기 대결에서 PR2의 수렴을 입증한다.
- 연속 행동 공간에서 상대 조건부 정책을 샘플링하기 위해 근사화된 Stein 변분 경사 하강법(SVGD)을 적용한다.
실험 결과
연구 질문
- RQ1상대의 신념에 대한 재귀적 추론이 비상관 인수분해를 넘어 다중 에이전트 RL의 학습을 개선할 수 있는가?
- RQ2변분 추론을 어떻게 활용하여 이해 가능한(처리 가능한) 분산 학습 설정에서 상대의 조건부 정책을 모델링할 수 있는가?
- RQ3하나의 내쉬 균형이 존재할 때 PR2-Q와 PR2-AC가 자기 대결에서 균형점으로 수렴하는가?
- RQ4매트릭스 게임, 미분 게임, 입자 세계 환경에서 PR2 방법이 표준 기준선보다 더 나은 성능을 보이는가?
- RQ5연속 행동 공간에서 상대의 신념에 대한 추론이 탐험과 수렴에 미치는 영향은 무엇인가?
주요 결과
- PR2는 에이전트가 상대가 자신의 행동에 어떻게 반응할지 고려하도록 하여 기준선에 비해 학습 성과를 향상시킨다.
- 하나의 내쉬 균형이 존재하는 자기 대결 시나리오에서 PR2-Q와 PR2-AC가 수렴한다.
- 반복 매트릭스 게임에서 PR2는 Infinitesimal Gradient Ascent가 관찰한 수렴하지 않는 순환 동역학을 피하고 중심 균형에 도달한다.
- 두 개의 2차식의 최대치 미분 게임에서 PR2-AC는 전역 균형으로 수렴하는 반면 많은 기준선은 국소 최적에 갇힌다.
- PR2 방법은 Particle World 환경에서 협력 및 경쟁 설정에서 우수한 성능을 보이며 특히 분산 실행에서 두드러진다.
- 변분 추론은 상대의 조건부 정책을 근사화하는 실용적 수단을 제공하여 확장 가능한 다중 에이전트 추론을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.