Skip to main content
QUICK REVIEW

[논문 리뷰] StarCraft II: A New Challenge for Reinforcement Learning

Oriol Vinyals, Timo Ewalds|arXiv (Cornell University)|2017. 08. 16.
Digital Games and Media참고 문헌 11인용 수 683
한 줄 요약

이 논문은 SC2LE(StarCraft II Learning Environment)를 소개합니다. 이는 전체 게임과 미니 게임 과제를 포함한 RTS 기반 강화학습 벤치마크로, 관측/동작/보상 인터페이스를 개략하고 기본 강화학습 결과를 제시합니다. SC2LE를 딥 RL 아키텍처를 발전시키기 위한 도전적이고 다중 에이전트이며 부분 관찰적 도메인으로 주장합니다.

ABSTRACT

This paper introduces SC2LE (StarCraft II Learning Environment), a reinforcement learning environment based on the StarCraft II game. This domain poses a new grand challenge for reinforcement learning, representing a more difficult class of problems than considered in most prior work. It is a multi-agent problem with multiple players interacting; there is imperfect information due to a partially observed map; it has a large action space involving the selection and control of hundreds of units; it has a large state space that must be observed solely from raw input feature planes; and it has delayed credit assignment requiring long-term strategies over thousands of steps. We describe the observation, action, and reward specification for the StarCraft II domain and provide an open source Python-based interface for communicating with the game engine. In addition to the main game maps, we provide a suite of mini-games focusing on different elements of StarCraft II gameplay. For the main game maps, we also provide an accompanying dataset of game replay data from human expert players. We give initial baseline results for neural networks trained from this data to predict game outcomes and player actions. Finally, we present initial baseline results for canonical deep reinforcement learning agents applied to the StarCraft II domain. On the mini-games, these agents learn to achieve a level of play that is comparable to a novice player. However, when trained on the main game, these agents are unable to make significant progress. Thus, SC2LE offers a new and challenging environment for exploring deep reinforcement learning algorithms and architectures.

연구 동기 및 목표

  • SC2LE을 StarCraft II 기반의 강화학습 환경으로 소개한다.
  • 다중 에이전트 상호작용, 불완전한 정보, 큰 행동/상태 공간, 장기적 크레딧 할당이라는 도메인 도전을 특징화한다.
  • RL 연구를 위한 오픈 소스 인터페이스(PySC2)와 인간 재생 데이터셋을 제공한다.
  • 난이도를 보정하고 향후 RL 알고리즘 개발을 안내하기 위한 베이스라인 결과를 제시한다.

제안 방법

  • 저해상도 특징 레이어와 보조 비공간 데이터를 관측으로 정의한다.
  • 약 300개의 액션-함수 식별자와 13개의 인수 유형을 가진 인간 UI를 반영하는 행동 공간을 설계한다.
  • Baseline 학습 알고리즘으로 엔트로피 정규화가 적용된 n-step 리턴을 사용하는 비동기식 Advantage Actor-Critic(A3C)을 사용한다.
  • 관측을 정책으로 매핑하기 위해 Atari-net 유사 구조, FullyConv, LSTM이 포함된 FullyConv 등 여러 신경망 아키텍처를 평가한다.
  • 특정 게임플레이 요소를 격리하기 위해 맞춤 보상을 갖춘 미니게임 과제를 제공한다.

실험 결과

연구 질문

  • RQ1SC2LE 인터페이스를 사용해 딥 RL 에이전트가 StarCraft II 전체 게임에 대해 의미 있는 정책을 학습할 수 있는가?
  • RQ2표준 RL 벤치마크(A3C)가 StarCraft II의 큰 행동/상태 공간으로 확장될 수 있는가?
  • RQ3공간 정보를 고려하는 네트워크를 포함해 SC2LE 관측에서 서로 다른 신경망 아키텍처가 어떻게 성능을 발휘하는가?
  • RQ4미니게임의 가치는 StarCraft II 내에서 세부 하위 태스크를 격리하고 해결하는 데 어떤가?
  • RQ5전체 게임과 미니게임 또는 무작위 베이스라인에서 학습될 때 에이전트 성능은 어떻게 달라지는가?

주요 결과

  • 베이스라인 RL 에이전트는 래더 맵에서 쉬운 AI에 맞서 전체 게임에서 이기기 어렵다.
  • 블리자드 점수 보상으로 학습된 에이전트는 단순한 채굴 중심 또는 진전 없는 전략으로 수렴한다.
  • 메모리가 있는 완전 합성곱 네트워크가 더 견고한 행동을 보이지만 전체 게임에서의 승리 성능에는 여전히 미치지 못한다.
  • 미니게임은 에이전트를 초보자 수준의 플레이에 도달하게 하지만 테스트된 베이스라인 하에서 전체 게임의 진행은 여전히 제한적이다.
  • SC2LE 설정은 복잡한 환경에서 시각 인식, 기억 및 의사결정을 발전시키기 위한 심층 RL 아키텍처의 도전적인 벤치마크를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.