QUICK REVIEW

[논문 리뷰] Cooperative Exploration for Multi-Agent Deep Reinforcement Learning

Iou-Jen Liu, Unnat Jain|arXiv (Cornell University)|2021. 07. 23.

Reinforcement Learning in Robotics인용 수 32

한 줄 요약

CMAE는 에이전트 간의 공동 목표를 공유하는 탐색을 고차원 상태를 제한된 공간으로 투사하고 아직 충분히 탐색되지 않은 영역으로 탐색을 유도하여 희소 보상 MARL 과제에서 샘플 효율성을 향상시킵니다.

ABSTRACT

Exploration is critical for good results in deep reinforcement learning and has attracted much attention. However, existing multi-agent deep reinforcement learning algorithms still use mostly noise-based techniques. Very recently, exploration methods that consider cooperation among multiple agents have been developed. However, existing methods suffer from a common challenge: agents struggle to identify states that are worth exploring, and hardly coordinate exploration efforts toward those states. To address this shortcoming, in this paper, we propose cooperative multi-agent exploration (CMAE): agents share a common goal while exploring. The goal is selected from multiple projected state spaces via a normalized entropy-based technique. Then, agents are trained to reach this goal in a coordinated manner. We demonstrate that CMAE consistently outperforms baselines on various tasks, including a sparse-reward version of the multiple-particle environment (MPE) and the Starcraft multi-agent challenge (SMAC).

연구 동기 및 목표

노이즈 기반 방법을 넘어 다중 에이전트 심층 강화학습에서의 향상된 탐색을 동기 부여합니다.
에이전트가 공통의 목표를 공유하여 미탐색 상태를 탐색하는 공동 탐색 프레임워크를 제안합니다.
간단한 상태 표현에서부터 복잡한 상태 표현으로의 조정을 도울 수 있는 저차원 제한 공간을 활용하여 협력적 탐색을 안내합니다.
CMAE의 희소 보상 MPE 및 SMAC 과제에서 베이스라인보다 성능 우위를 입증합니다.

제안 방법

탐색을 목표 정책으로부터 분리하고 공유된 미탐색 목표에 도달하도록 탐색 정책을 학습합니다.
고차원 상태 공간을 제한된 저차원 공간 S_k으로 투사하고 점진적으로 더 높은 차원으로 확장합니다(공간 트리 T_space).
카운터 c_k에 대한 정규화 엔트로피 기반의 효용을 사용하여 제한 공간에서 공유 목표 g를 선택하고 미탐색 영역을 식별합니다.
공유 목표 도달에 보너스 포인트를 주는 수정된 보상으로 탐색 정책을 학습하고, 표적 정책은 일반 MARL 목표로 업데이트합니다.
연속 상태 공간을 처리하고 제한 공간 카운터를 효율적으로 업데이트하기 위해 해시 기반 카운팅을 사용합니다.
공유 목표와 제한 공간 탐색의 이점을 보여주는 간단한 다인용 매트릭스 게임을 통한 이론적 직관을 제공합니다.

실험 결과

연구 질문

RQ1 coordinated, goal-directed exploration이 노이즈 기반 탐색과 비교해 다중 에이전트 딥 RL의 데이터 효율성을 향상시킬 수 있는가?
RQ2제한 공간 투사와 공간 트리 기반 확장이 에이전트 수가 증가함에 따라 확장 가능한 탐색을 가능하게 하는가?
RQ3 CMAE의 성능 향상을 위해 탐색을 목표 정책으로 분리하는 것이 필수적인가?
RQ4 CMAE가 벤치마크인 MPE, SMAC에서 베이스라인 대비 희소 보상에서 어떤 성과를 보이는가?

주요 결과

Method	CMAE (Ours)	Q-learning	Q-learning + Bonus	EITI	EDTI
Pass-sparse	1.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00
Secret-Room-sparse	1.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00
Push-Box-sparse	1.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00
Pass-dense	5.00 ± 0.00	1.25 ± 0.02	1.42 ± 0.14	0.00 ± 0.00	0.18 ± 0.01
Secret-Room-dense	4.00 ± 0.57	1.62 ± 0.16	1.53 ± 0.04	0.00 ± 0.00	0.00 ± 0.00
Push-Box-dense	1.38 ± 0.21	1.58 ± 0.14	1.55 ± 0.04	0.10 ± 0.01	0.05 ± 0.03

CMAE는 희소 보상 MPE 과제에서 Pass, Secret-Room, Push-Box를 예산 내 단계에서 해결하는 등 베이스라인보다 우수한 성능을 보였습니다.
조밀 보상 MPE 과제에서는 CMAE가 최종 성능에서 베이스라인과 일치하거나 더 우수합니다.
SMAC 희소 보상 설정(3m-sparse 및 2m_vs_1z-sparse)에서 CMAE는 각각 47.7% 및 44.3%의 성공률을 달성하여 베이스라인보다 높습니다.
타깃과 탐색 정책의 분리 및 탐색을 저차원 공간으로 제한하는 것이 CMAE의 효과에 결정적이라는 것이 Ablation에서 나타났습니다.
분석 결과 공유 목표 탐색이 비협조적 탐색보다 다양한 행동 구성의 발견을 가속화합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.