Skip to main content
QUICK REVIEW

[논문 리뷰] Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics

Johannes Ackermann, Volker Gabler|arXiv (Cornell University)|2019. 10. 03.
Reinforcement Learning in Robotics참고 문헌 25인용 수 70
한 줄 요약

본 논문은 다중 에이전트 강화학습에서 과대 추정 편향(overestimation bias)을 식별하고, 이를 완화하기 위해 이중 중앙집중식 비평가(MATD3) 접근법을 제안하며, 협력-경쟁 태스크 전반과 고차원 로봇공학 설정에서 성능 향상을 입증한다.

ABSTRACT

Many real world tasks require multiple agents to work together. Multi-agent reinforcement learning (RL) methods have been proposed in recent years to solve these tasks, but current methods often fail to efficiently learn policies. We thus investigate the presence of a common weakness in single-agent RL, namely value function overestimation bias, in the multi-agent setting. Based on our findings, we propose an approach that reduces this bias by using double centralized critics. We evaluate it on six mixed cooperative-competitive tasks, showing a significant advantage over current methods. Finally, we investigate the application of multi-agent methods to high-dimensional robotic tasks and show that our approach can be used to learn decentralized policies in this domain.

연구 동기 및 목표

  • 다중 에이전트 강화학습에서 가치 함수 과대추정 편향의 존재를 동기 부여하고 이해한다.
  • 이중 중앙집중식 비평가를 사용하여 과대추정 편향을 줄이는 새로운 MARL 알고리즘을 제안한다.
  • 입자 환경의 여섯 가지 혼합 협동-경쟁 태스크에 걸쳐 제안된 방법을 평가한다.
  • 고차원 로봇 작업에 대한 완전히 분산된 정책 학습에 이 접근법의 적용 가능성을 입증한다.

제안 방법

  • 중앙집중 학습 및 분산 실행으로 다중 에이전트 설정에 TD3를 확장한다.
  • 에이전트당 두 개의 중앙집중식 비평가를 사용하고 그 최솟값을 타깃 y_i로 삼아 과대추정을 줄인다.
  • 비평가 업데이트에서 다음 행동에 잘린 가우시안 노이즈를 추가하여 타깃 정책 스무딩을 적용한다.
  • 정책 업데이트 전에 비평가의 정확성을 충분히 확보하기 위해 지연된 정책 업데이트를 도입한다.
  • 학습 중에 안정된 타깃을 위해 두 번째 비평가를 유지하고, 정책은 첫 번째 비평가를 사용하여 업데이트한다.

실험 결과

연구 질문

  • RQ1MADDPG와 같은 다중 에이전트 도메인에서 과대추정 편향이 지속되는가, 그리고 그것이 학습 성능에 어떤 영향을 미치는가?
  • RQ2이중 중앙집중식 비평가 기제(MATD3)가 혼합 협동-경쟁 MARL 태스크에서 과대추정 편향을 줄이고 성능을 향상시킬 수 있는가?
  • RQ3협력적 및 적대적 환경과 고차원 로봇 설정에서 MATD3가 MADDPG와 어떻게 비교되는가?
  • RQ4지연된 정책 업데이트와 타깃 정책 스무딩이 이러한 도메인에서 MARL 성능에 영향을 미치는가?

주요 결과

  • MADDPG는 협력형 MARL 태스크에서 Q-값을 과대평가하는 경향이 있어 최종 성능이 낮아지는 것과 상관관계가 있다.
  • MATD3가 대부분의 입자 도메인 태스크에서 MADDPG보다 현저히 우수하게 성능을 발휘하며, 특히 협력 환경에서 더 두드러진다.
  • 적대적 도메인에서 MATD3가 여러 태스크에서 MADDPG를 능가하지만, Covert Communication 같은 태스크에서는 MADDPG가 더 빠르게 적응하는 경우도 있다.
  • 지연된 정책 업데이트가 대부분의 태스크에서 분산을 감소시키고 최종 성능을 향상시키지만 Covert Communication과 같은 예외가 있다.
  • 타깃 정책 스무딩은 이들의 MARL 설정에서 명확한 이점을 보이지 않았다.
  • 분산 로봇 제어(Ant-v2 분할)에서 MATD3가 MADDPG 및 독립 학습자들보다 우수하여 고차원 작업으로의 확장성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.