[논문 리뷰] Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics
본 논문은 다중 에이전트 강화학습에서 과대 추정 편향(overestimation bias)을 식별하고, 이를 완화하기 위해 이중 중앙집중식 비평가(MATD3) 접근법을 제안하며, 협력-경쟁 태스크 전반과 고차원 로봇공학 설정에서 성능 향상을 입증한다.
Many real world tasks require multiple agents to work together. Multi-agent reinforcement learning (RL) methods have been proposed in recent years to solve these tasks, but current methods often fail to efficiently learn policies. We thus investigate the presence of a common weakness in single-agent RL, namely value function overestimation bias, in the multi-agent setting. Based on our findings, we propose an approach that reduces this bias by using double centralized critics. We evaluate it on six mixed cooperative-competitive tasks, showing a significant advantage over current methods. Finally, we investigate the application of multi-agent methods to high-dimensional robotic tasks and show that our approach can be used to learn decentralized policies in this domain.
연구 동기 및 목표
- 다중 에이전트 강화학습에서 가치 함수 과대추정 편향의 존재를 동기 부여하고 이해한다.
- 이중 중앙집중식 비평가를 사용하여 과대추정 편향을 줄이는 새로운 MARL 알고리즘을 제안한다.
- 입자 환경의 여섯 가지 혼합 협동-경쟁 태스크에 걸쳐 제안된 방법을 평가한다.
- 고차원 로봇 작업에 대한 완전히 분산된 정책 학습에 이 접근법의 적용 가능성을 입증한다.
제안 방법
- 중앙집중 학습 및 분산 실행으로 다중 에이전트 설정에 TD3를 확장한다.
- 에이전트당 두 개의 중앙집중식 비평가를 사용하고 그 최솟값을 타깃 y_i로 삼아 과대추정을 줄인다.
- 비평가 업데이트에서 다음 행동에 잘린 가우시안 노이즈를 추가하여 타깃 정책 스무딩을 적용한다.
- 정책 업데이트 전에 비평가의 정확성을 충분히 확보하기 위해 지연된 정책 업데이트를 도입한다.
- 학습 중에 안정된 타깃을 위해 두 번째 비평가를 유지하고, 정책은 첫 번째 비평가를 사용하여 업데이트한다.
실험 결과
연구 질문
- RQ1MADDPG와 같은 다중 에이전트 도메인에서 과대추정 편향이 지속되는가, 그리고 그것이 학습 성능에 어떤 영향을 미치는가?
- RQ2이중 중앙집중식 비평가 기제(MATD3)가 혼합 협동-경쟁 MARL 태스크에서 과대추정 편향을 줄이고 성능을 향상시킬 수 있는가?
- RQ3협력적 및 적대적 환경과 고차원 로봇 설정에서 MATD3가 MADDPG와 어떻게 비교되는가?
- RQ4지연된 정책 업데이트와 타깃 정책 스무딩이 이러한 도메인에서 MARL 성능에 영향을 미치는가?
주요 결과
- MADDPG는 협력형 MARL 태스크에서 Q-값을 과대평가하는 경향이 있어 최종 성능이 낮아지는 것과 상관관계가 있다.
- MATD3가 대부분의 입자 도메인 태스크에서 MADDPG보다 현저히 우수하게 성능을 발휘하며, 특히 협력 환경에서 더 두드러진다.
- 적대적 도메인에서 MATD3가 여러 태스크에서 MADDPG를 능가하지만, Covert Communication 같은 태스크에서는 MADDPG가 더 빠르게 적응하는 경우도 있다.
- 지연된 정책 업데이트가 대부분의 태스크에서 분산을 감소시키고 최종 성능을 향상시키지만 Covert Communication과 같은 예외가 있다.
- 타깃 정책 스무딩은 이들의 MARL 설정에서 명확한 이점을 보이지 않았다.
- 분산 로봇 제어(Ant-v2 분할)에서 MATD3가 MADDPG 및 독립 학습자들보다 우수하여 고차원 작업으로의 확장성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.