QUICK REVIEW

[논문 리뷰] Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games

Peng Peng, Ying Wen|arXiv (Cornell University)|2017. 03. 29.

Reinforcement Learning in Robotics참고 문헌 40인용 수 272

한 줄 요약

BiCNet은 양방향 순환 커뮤니케이션과 공유된 액터-크리틱 프레임워크를 통해 스타크래프트 전투 과제에서 확장 가능한 다중 에이전트 협력을 가능하게 하며, 시연 없이도 인간 수준의 협력을 달성합니다.

ABSTRACT

Many artificial intelligence (AI) applications often require multiple intelligent agents to work in a collaborative effort. Efficient learning for intra-agent communication and coordination is an indispensable step towards general AI. In this paper, we take StarCraft combat game as a case study, where the task is to coordinate multiple agents as a team to defeat their enemies. To maintain a scalable yet effective communication protocol, we introduce a Multiagent Bidirectionally-Coordinated Network (BiCNet ['bIknet]) with a vectorised extension of actor-critic formulation. We show that BiCNet can handle different types of combats with arbitrary numbers of AI agents for both sides. Our analysis demonstrates that without any supervisions such as human demonstrations or labelled data, BiCNet could learn various types of advanced coordination strategies that have been commonly used by experienced game players. In our experiments, we evaluate our approach against multiple baselines under different scenarios; it shows state-of-the-art performance, and possesses potential values for large-scale real-world applications.

연구 동기 및 목표

복잡하고 실시간인 게임에서 다수의 에이전트 간 인간과 유사한 협력 학습에 대한 연구를 고무한다.
사람의 시연 없이 임의 수의 에이전트를 처리할 수 있는 확장 가능한 커뮤니케이션 메커니즘을 개발한다.
메모리 증강 네트워크에 내장된 양방향 커뮤니케이션이 자발적 협력 전략을 가능하게 함을 입증한다.
다양한 스타크래프트 전투 시나리오에서 베이스라인 대비 성능 향상을 보인다.
실제 세계의 대규모 다중에이전트 응용 분야에서 BiCNet의 가능성을 보여준다.

제안 방법

스타크래프트 마이크로매니지먼트를 양측에 동형의 에이전트가 있는 제로합 확률 게임으로 형식화한다.
양방향으로 조정된 다중에이전트 액터-크리틱 네트워크인 BiCNet을 제안하며, 에이전트 간 소통을 위한 양방향 RNN과 공유 매개변수를 사용한다.
공동 정책 학습을 위한 다중에이전트 결정적 정책 경사 프레임워크(멀티에이전트 결정적 PG 정리)를 도출한다.
개별 에이전트의 귀속을 포착하고 확장 가능한 크레딧 할당을 촉진하기 위해 로컬 보상 모델링을 도입한다.
오프 폴리시 결정적 액터-크리틱 방법으로 학습하고 BiCNet를 통해 전파된 그래디언트를 사용하여 액터와 크리틱 네트워크를 함께 업데이트한다.

실험 결과

연구 질문

RQ1BiCNet가 인간의 시연 없이도 다수의 에이전트 사이에서 확장 가능하고 자발적으로 emergent 협력을 촉진할 수 있는가?
RQ2양방향의 메모리 기반 커뮤니케이션이 기존 베이스라인과 비교하여 스타크래프트 전투 과제에서 다중에이전트 협력 및 성능을 향상시키는가?
RQ3BiCNet은 다양한 팀 규모와 이질적 에이전트 유형을 어떻게 다루면서도 매개변수화를 간결하게 유지하는가?
RQ4에이전트가 학습하면서 어떤 협력 전략이 자발적으로 나타나며, 이것이 인간 전략과 어떻게 비교되는가?

주요 결과

BiCNet은 규칙 기반 및 여러 심층 RL 베이스라인에 비해 여러 스타크래프트 전투 시나리오에서 최첨단 성능을 달성한다.
모델은 충돌 방지 이동, 기습 기동, 엄호 공격, 협력적 집중 화력 등의 다양한 협력 전략을 학습한다.
BiCNet은 매개변수 공유로 인해 서로 다른 수의 에이전트에 확장되며, 팀 규모가 커질수록 성능 향상이 특히 두드러진다.
시각화 결과 높은 Q 상태가 전략적으로 유리한 협력 행동에 해당함을 시사한다.
더 간단한 3에이전트 커뮤니케이션 예는 효과적인 양방향 정보 공유를 보여주고, 가산적 작업에서 다른 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.