QUICK REVIEW

[논문 리뷰] Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics

Johannes Ackermann, Volker Gabler|arXiv (Cornell University)|2019. 10. 03.

Reinforcement Learning in Robotics참고 문헌 25인용 수 70

한 줄 요약

본 논문은 다중 에이전트 강화학습에서 과대 추정 편향(overestimation bias)을 식별하고, 이를 완화하기 위해 이중 중앙집중식 비평가(MATD3) 접근법을 제안하며, 협력-경쟁 태스크 전반과 고차원 로봇공학 설정에서 성능 향상을 입증한다.

ABSTRACT

Many real world tasks require multiple agents to work together. Multi-agent reinforcement learning (RL) methods have been proposed in recent years to solve these tasks, but current methods often fail to efficiently learn policies. We thus investigate the presence of a common weakness in single-agent RL, namely value function overestimation bias, in the multi-agent setting. Based on our findings, we propose an approach that reduces this bias by using double centralized critics. We evaluate it on six mixed cooperative-competitive tasks, showing a significant advantage over current methods. Finally, we investigate the application of multi-agent methods to high-dimensional robotic tasks and show that our approach can be used to learn decentralized policies in this domain.

연구 동기 및 목표

다중 에이전트 강화학습에서 가치 함수 과대추정 편향의 존재를 동기 부여하고 이해한다.
이중 중앙집중식 비평가를 사용하여 과대추정 편향을 줄이는 새로운 MARL 알고리즘을 제안한다.
입자 환경의 여섯 가지 혼합 협동-경쟁 태스크에 걸쳐 제안된 방법을 평가한다.
고차원 로봇 작업에 대한 완전히 분산된 정책 학습에 이 접근법의 적용 가능성을 입증한다.

제안 방법

중앙집중 학습 및 분산 실행으로 다중 에이전트 설정에 TD3를 확장한다.
에이전트당 두 개의 중앙집중식 비평가를 사용하고 그 최솟값을 타깃 y_i로 삼아 과대추정을 줄인다.
비평가 업데이트에서 다음 행동에 잘린 가우시안 노이즈를 추가하여 타깃 정책 스무딩을 적용한다.
정책 업데이트 전에 비평가의 정확성을 충분히 확보하기 위해 지연된 정책 업데이트를 도입한다.
학습 중에 안정된 타깃을 위해 두 번째 비평가를 유지하고, 정책은 첫 번째 비평가를 사용하여 업데이트한다.

실험 결과

연구 질문

RQ1MADDPG와 같은 다중 에이전트 도메인에서 과대추정 편향이 지속되는가, 그리고 그것이 학습 성능에 어떤 영향을 미치는가?
RQ2이중 중앙집중식 비평가 기제(MATD3)가 혼합 협동-경쟁 MARL 태스크에서 과대추정 편향을 줄이고 성능을 향상시킬 수 있는가?
RQ3협력적 및 적대적 환경과 고차원 로봇 설정에서 MATD3가 MADDPG와 어떻게 비교되는가?
RQ4지연된 정책 업데이트와 타깃 정책 스무딩이 이러한 도메인에서 MARL 성능에 영향을 미치는가?

주요 결과

MADDPG는 협력형 MARL 태스크에서 Q-값을 과대평가하는 경향이 있어 최종 성능이 낮아지는 것과 상관관계가 있다.
MATD3가 대부분의 입자 도메인 태스크에서 MADDPG보다 현저히 우수하게 성능을 발휘하며, 특히 협력 환경에서 더 두드러진다.
적대적 도메인에서 MATD3가 여러 태스크에서 MADDPG를 능가하지만, Covert Communication 같은 태스크에서는 MADDPG가 더 빠르게 적응하는 경우도 있다.
지연된 정책 업데이트가 대부분의 태스크에서 분산을 감소시키고 최종 성능을 향상시키지만 Covert Communication과 같은 예외가 있다.
타깃 정책 스무딩은 이들의 MARL 설정에서 명확한 이점을 보이지 않았다.
분산 로봇 제어(Ant-v2 분할)에서 MATD3가 MADDPG 및 독립 학습자들보다 우수하여 고차원 작업으로의 확장성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.