Skip to main content
QUICK REVIEW

[논문 리뷰] Episodic Multi-agent Reinforcement Learning with Curiosity-Driven Exploration

Lulu Zheng, Jiarui Chen|arXiv (Cornell University)|2021. 11. 22.
Reinforcement Learning in Robotics인용 수 40
한 줄 요약

EMC는 개별 Q값 예측에 기반한 호기심 주도 내재 보상을 도입하고 샘플 효율성을 높이기 위해 에피소드 메모리를 사용하여 강한 조정력을 달성하고 SMAC 벤치마크에서 MARL 기반선들을 능가합니다.

ABSTRACT

Efficient exploration in deep cooperative multi-agent reinforcement learning (MARL) still remains challenging in complex coordination problems. In this paper, we introduce a novel Episodic Multi-agent reinforcement learning with Curiosity-driven exploration, called EMC. We leverage an insight of popular factorized MARL algorithms that the "induced" individual Q-values, i.e., the individual utility functions used for local execution, are the embeddings of local action-observation histories, and can capture the interaction between agents due to reward backpropagation during centralized training. Therefore, we use prediction errors of individual Q-values as intrinsic rewards for coordinated exploration and utilize episodic memory to exploit explored informative experience to boost policy training. As the dynamics of an agent's individual Q-value function captures the novelty of states and the influence from other agents, our intrinsic reward can induce coordinated exploration to new or promising states. We illustrate the advantages of our method by didactic examples, and demonstrate its significant outperformance over state-of-the-art MARL baselines on challenging tasks in the StarCraft II micromanagement benchmark.

연구 동기 및 목표

  • CTDE 하에서 협동 MARL의 효율적인 조정 및 탐색을 촉진합니다.
  • 개별 Q값 예측을 기반으로 한 호기심 주도 메커니즘을 제안하여 탐색을 유도합니다.
  • 학습을 정규화하고 유익한 과거 경험을 재사용하기 위해 에피소드 메모리를 사용합니다.
  • 확장성을 높이기 위해 VDN/QMIX/QPLEX와 같은 선형 가치 인자화 프레임워크와의 호환성을 가능하게 합니다.

제안 방법

  • 호기심을 선형 가치 인자화 프레임워크 내에서 개별 Q값의 예측 오차로 정의합니다.
  • 내재 보상 r^int를 예측 Q값과 외재 Q값 사이의 평균 L2 거리로 에이전트 간 평균으로 계산합니다.
  • 한 단계 TD 타깃을 사용하여 외재 보상과 내재 보상을 활용해 추론 모듈을 학습합니다.
  • 전역 상태에 대한 에피소드 메모리를 유지하여 가장 잘 기억된 반환을 저장하고 이를 사용해 정규화를 위한 메모리 타깃 H를 형성합니다.
  • 학습 안정화를 위해 타깃을 부드럽게 업데이트합니다(소프트 업데이트).
  • EMC를 위해 호기심 모듈과 메모리를 CTDE 기반 MARL 알고리즘(예: VDN/QMIX/QPLEX)에 통합합니다.

실험 결과

연구 질문

  • RQ1관심을 위한 개별 Q값 예측이 관찰 이력의 예측보다 더 나은 조정된 탐색으로 이끄는가?
  • RQ2도전적인 MARL 과제(예: SMAC)에서 EMC가 최첨단 baselines와 비교하여 더 우수한 성능을 달성할 수 있는가?
  • RQ3호기심 모듈과 에피소드 메모리가 학습 효율성과 안정성에 미치는 영향은 무엇인가?
  • RQ4CTDE와 가치 인자화 하에서 에이전트 수가 늘어날 때 EMC의 확장성은 어느 정도인가?

주요 결과

  • EMC는 어려운 SMAC 과제에서 최신 MARL 기준선보다 상당히 우수한 성능을 보인다.
  • 하드 맵에서 EMC는 corridor 및 3s5z_vs_3s6z와 같은 여러 시나리오에서 최상의 성능을 달성하며 빠른 학습 진행을 보인다.
  • EMC는 17개의 SMAC 시나리오에서 전반적으로 강력한 성능을 보이며, 중간 승률 지표에서 선두를 이끌고 여러 맵에서 최상의 결과를 달성하는 경우가 많다.
  • 특성 제거 실험은 도전적 과제에 호기심 주도 탐색이 결정적임을 시사하고 에피소드 메모리는 주로 샘플 효율성을 높인다.
  • 이 방법은 CTDE 패러다임 하에서 여러 인자화 스킴들(VDN/QMIX/QPLEX)과의 호환성을 가진다.
  • 교수적 실험은 관찰 이력을 예측하는 것보다 Q값을 예측하는 것이 조정된 탐색의 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.