QUICK REVIEW

[논문 리뷰] Learning Implicit Credit Assignment for Cooperative Multi-Agent Reinforcement Learning

Meng Zhou, Ziyu Liu|arXiv (Cornell University)|2020. 07. 06.

Reinforcement Learning in Robotics참고 문헌 54인용 수 47

한 줄 요약

LICA는 협력적 MARL에서 명시적 크레딧 할당을 암시적으로 해결하기 위해 하이퍼네트워크 혼합 비평가와 적응적 엔트로피를 갖춘 정책 기반 CTDE 방법을 도입하고, Multi-Agent Particle Environments 및 StarCraft II 미세관리에서 강력한 성과를 보인다.

ABSTRACT

We present a multi-agent actor-critic method that aims to implicitly address the credit assignment problem under fully cooperative settings. Our key motivation is that credit assignment among agents may not require an explicit formulation as long as (1) the policy gradients derived from a centralized critic carry sufficient information for the decentralized agents to maximize their joint action value through optimal cooperation and (2) a sustained level of exploration is enforced throughout training. Under the centralized training with decentralized execution (CTDE) paradigm, we achieve the former by formulating the centralized critic as a hypernetwork such that a latent state representation is integrated into the policy gradients through its multiplicative association with the stochastic policies; to achieve the latter, we derive a simple technique called adaptive entropy regularization where magnitudes of the entropy gradients are dynamically rescaled based on the current policy stochasticity to encourage consistent levels of exploration. Our algorithm, referred to as LICA, is evaluated on several benchmarks including the multi-agent particle environments and a set of challenging StarCraft II micromanagement tasks, and we show that LICA significantly outperforms previous methods.

연구 동기 및 목표

명시적 크레딧 할당 없이 공유 보상 하에서 협력 정책 학습을 촉진한다.
상태 조건부 하이퍼네트워크를 통해 더 풍부한 그래디언트 정보를 제공하는 중앙 비평가를 개발한다.
적응적 엔트로피 정규화를 통해 훈련 중 지속적인 탐색을 보장한다.
도전적인 협력 벤치마크에서 LICA를 평가하고 최첨단 방법과 비교한다.

제안 방법

상태를 입력으로 받아 개별 행동 표현을 혼합하여 공동 Q 추정치를 만드는 가중치 집합으로 매핑하는 하이퍼네트워크로 중앙 비평가를 공식화한다.
혼합 비평가를 통해 정책 그래디언트를 계산하여 분산된 확률 정책의 엔드투엔드 최적화를 가능하게 한다.
일반화된 어드밴티지 추정 TD(lambda) 타깃으로 정책 기반 학습으로 비평가를 학습하고, 안정성을 위해 타깃 비평가를 선택적으로 사용한다.
샘플링된 행동 대신 행동 분포 매개변수를 비평가에 입력으로 제공하여 더 정보성 있는 그래디언트를 얻도록 정책을 선택적으로 학습한다.
현재 정책 엔트로피에 반비례하도록 엔트로피 그래디언트의 크기를 조정하는 적응적 엔트로피 정규화를 도입하여 탐색을 유지한다.
두 가지 학습 체제를 제공한다: (i) 이산 행동에 대해 Gumbel-Softmax를 이용한 표준 행동 샘플링, (ii) 비평가에 대한 입력으로 행동 분포 매개변수를 직접 사용하는 것.

실험 결과

연구 질문

RQ1명시적 베이스라인이나 차이 보상 없이 상태 조건부 혼합 비평가로부터 암시적 크레딧 할당이 발생할 수 있는가?
RQ2하이퍼네트워크 기반 비평가가 표준 MLP 비평가에 비해 크레딧 할당 및 공동 정책 품질을 향상시키는가?
RQ3적응적 엔트로피 정규화가 협력 MARL에서 탐색 및 수렴에 어떤 영향을 미치는가?
RQ4행동 분포 매개변수를 비평가 입력으로 사용하는 것이 학습 효율성과 안정성에 미치는 영향은 무엇인가?
RQ5제안된 방법들이 다양한 협력 과제와 행동 공간에서 강건한가?

주요 결과

LICA는 다중 에이전트 입자 환경과 StarCraft II 미시 관리 작업에서 기존 방법에 비해 경쟁력 있거나 우수한 성능을 달성한다.
혼합 비평가는 단조로운 가치 분해를 넘는 협력 정책 학습을 지원하는 더 풍부한 상태-행동 그래디언트 정보를 제공한다.
적응적 엔트로피 정규화는 복잡한 시나리오에서 더 일관된 탐색과 더 빠른 수렴을 제공한다.
SC2 시나리오에서 행동 분포 매개변수를 비평가 입력으로 사용하는 것이 더 빠르고 안정적인 정책 수렴으로 이어질 수 있다.
구성 요소 제거 실험은 혼합 비평가의 필요성과 대안 정책 그래디언트 형식의 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.