QUICK REVIEW

[논문 리뷰] Actor-Critic Policy Optimization in Partially Observable Multiagent Environments

Sriram Srinivasan, Marc Lanctot|arXiv (Cornell University)|2018. 10. 21.

Reinforcement Learning in Robotics인용 수 71

한 줄 요약

본 논문은 부분 관찰 다중 에이전트 게임에서 actor-critic 정책 경사를 regret minimization과 연결하고, poker 도메인에서 평가된 regret 기반 정책 업데이트를 제안하며, 근사 내시 균형으로 수렴하는 것을 보인다.

ABSTRACT

Optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent of a score function representing discounted return. In this paper, we examine the role of these policy gradient and actor-critic algorithms in partially-observable multiagent environments. We show several candidate policy update rules and relate them to a foundation of regret minimization and multiagent learning techniques for the one-shot and tabular cases, leading to previously unknown convergence guarantees. We apply our method to model-free multiagent reinforcement learning in adversarial sequential decision problems (zero-sum imperfect information games), using RL-style function approximation. We evaluate on commonly used benchmark Poker domains, showing performance against fixed policies and empirical convergence to approximate Nash equilibria in self-play with rates similar to or better than a baseline model-free algorithm for zero sum games, without any domain-specific state space reductions.

연구 동기 및 목표

멀티에이전트, 부분 관찰 설정에서 정책 경사 및 actor-critic 방법을 동기 부여하고 형식화한다.
actor-critic 업데이트를 regret minimization 및 게임 이론적 용어의 counterfactual regret와 연결한다.
여러 regret-영감 업데이트 규칙을 제안하고 분석한다.
부분 관찰 가능한 적대적 순차 의사결정 문제에서 모델 프리 online 학습을 Demonstrate 한다.

제안 방법

regret minimization에서 영감을 받은 여러 정책 업데이트 규칙 정의: Regret Policy Gradient (RPG), Regret Matching Policy Gradient (RMPG), 및 그들의 Q-learning 풍의 대응.
부분 관찰 하에서 Bayes 정규화를 통해 counterfactual 값을 표준 Q-값에 연결하고, counterfactual regret의 근사를 도출한다.
정책과 가치 모두에 대해 신경망 함수 근사기를 사용하는 actor-critic 아키텍처를 모델 프리 온라인 방식으로 엔드투엔드 학습한다.
PGPI/ACPI 다이나믹스 및 표 형식의 두 선수 제로합 사례에서 부분적으로 관찰 가능한 경우의 서브선형 regret 경계의 이론적 연결과 증명을 제공한다.
제로합, 부분 관찰 다중에이전트 게임(Kuhn 및 Leduc 포커)을 벤치마크 에이전트 및 CFR 기반 벤치마크와 대조 평가한다.

실험 결과

연구 질문

RQ1부분 관찰 다중 에이전트 환경에서 actor-critic 방법을 regret minimization에 근거지울 수 있는가?
RQ2부분 관찰 및 다중에이전트 상호작용 아래 counterfactual regret가 표준 advantage 추정치와 어떻게 관련되는가?
RQ3온라인으로 학습하고 모델 프리일 때 regret-영감 actor-critic 업데이트가 제로합 포커 환경에서 근사 내시 균형으로 수렴하는가?
RQ4제안된 업데이트(RPG, RMPG, QPG) 중 실제로 어떤 것이 적대적 순차 의사결정 문제에서 최적의 성능을 보이는가?
RQ5수렴 속도 및 강건성 측면에서 CFR 기반 벤치마크와 비교하여 이 방법들이 어떻게 다른가?

주요 결과

Actor-critic 변형들이 Kuhn 및 Leduc 포커에서 근사 내시 균형으로 수렴하며, 성능이 CFR 기반 벤치마크와 거의 같거나 더 우수하다.
QPG와 RPG는 일반적으로 보고된 포커 도메인에서 RMPG보다 우수한 성능을 보인다.
방법은 모델 프리이고 온라인이며, 대규모 전이 버퍼를 저장할 필요 없이도 좋은 수렴을 달성한다.
RPG 및 QPG는 고정된 CFR 유도 봇에 대해 장기적으로 우수한 성능을 보이며, 자체 대결에서 종종 NFSP 벤치마크를 능가한다.
본 연구는 부분 관찰 MARL에서 regret minimization과 표준 정책 경사 업데이트 간의 이론적 연결을 확립한다.
모든 방법은 도메인 특화 상태 공간 축소 없이 작동하므로 적대적 다중에이전트 설정에서 일반화 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.