QUICK REVIEW

[논문 리뷰] ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games

Yuandong Tian, Qucheng Gong|arXiv (Cornell University)|2017. 07. 04.

Reinforcement Learning in Robotics참고 문헌 15인용 수 58

한 줄 요약

ELF는 세 가지 환경(Mini-RTS, Capture the Flag, Tower Defense)을 갖춘 가볍고 유연한 RTS 연구 플랫폼을 제공하여 고처리량으로 엔드투엔드 RL 학습을 가능하게 하고 오픈 소스입니다.

ABSTRACT

In this paper, we propose ELF, an Extensive, Lightweight and Flexible platform for fundamental reinforcement learning research. Using ELF, we implement a highly customizable real-time strategy (RTS) engine with three game environments (Mini-RTS, Capture the Flag and Tower Defense). Mini-RTS, as a miniature version of StarCraft, captures key game dynamics and runs at 40K frame-per-second (FPS) per core on a Macbook Pro notebook. When coupled with modern reinforcement learning methods, the system can train a full-game bot against built-in AIs end-to-end in one day with 6 CPUs and 1 GPU. In addition, our platform is flexible in terms of environment-agent communication topologies, choices of RL methods, changes in game parameters, and can host existing C/C++-based game environments like Arcade Learning Environment. Using ELF, we thoroughly explore training parameters and show that a network with Leaky ReLU and Batch Normalization coupled with long-horizon training and progressive curriculum beats the rule-based built-in AI more than $70\%$ of the time in the full game of Mini-RTS. Strong performance is also achieved on the other two games. In game replays, we show our agents learn interesting strategies. ELF, along with its RL platform, is open-sourced at https://github.com/facebookresearch/ELF.

연구 동기 및 목표

실시간 전략(RTS) RL 연구를 위한 광범위하고 가볍고 유연한 연구 지향 플랫폼을 구축한다.
다중 환경과 높은 시뮬레이션 속도를 제공하는 RTS 엔진을 구축한다(예: Mini-RTS는 코어당 40K FPS).
유연한 환경-에이전트 통신 토폴로지와 기존 C/C++ 게임 환경과의 통합을 지원한다.
빌트인 AI에 대항하는 RL 에이전트의 엔드투엔드 학습을 가능하게 하고 커리큘럼 학습 및 계층적 명령 구조를 포함한 학습 동역학을 연구한다.
RTS 및 관련 도메인에서 RL 연구를 가속화하기 위한 오픈 소스 프레임워크를 제공한다.

제안 방법

C++ 기반 게임 시뮬레이션과 Python RL 백엔드를 사용한 배치된 경험 처리를 위한 생산자-소비자 아키텍처를 제안한다.
효율적인 학습을 위한 유연한 환경-모델 토폴로지(일대일, 다대일, 일대다) 및 다중 모델 배치를 지원한다.
다양한 게임(RTS, 어댑터를 통한 Atari 등)을 호스트하기 위한 통합 인터페이스를 제공하고 원시 픽셀 입력과 내부 게임 데이터를 모두 사용할 수 있게 한다.
Python 기반 RL 백엔드에 기본 RL 기법들(A3C, Policy Gradient, Q-learning, TRPO)을 포함시킨다.
향상된 성능을 위해 커리큘럼 학습과 더 긴 시간 축(horizon)을 조사하고 Leaky ReLU 및 Batch Normalization이 적용된 네트워크 아키텍처를 연구한다.
Mini-RTS에서 엔드투엔드 학습을 시연하고 다수의 게임에서 빌트인 AI와의 성능을 평가한다.
Monte-Carlo Tree Search (MCTS)로의 계획 수립을 탐구하고 RL 기준선과 비교한다.

실험 결과

연구 질문

RQ1부분 정보 하에서 ELF로 학습된 엔드투엔드 RL 에이전트가 전체 RTS 게임에서 빌트인 규칙 기반 AI를 이길 수 있는가?
RQ2아키텍처 선택(Leaky ReLU, BatchNorm)과 학습 설정(길어진 horizon, 커리큘럼)이 RTS 과제의 성능에 어떤 영향을 미치는가?
RQ3다양한 프레임 건너뛰기(frame-skips), 히스토리 길이 및 토폴로지 구성의 변화가 학습 효율성과 일반화에 미치는 영향은 무엇인가?
RQ4처리량과 빠른 RL 실험을 위한 유연성 측면에서 ELF가 기존 RTS 환경과 어떻게 비교되는가?
RQ5이 플랫폼 내에서 완전 정보 하의 계획 방법(MCTS)이 RL 성능에 근접할 수 있는가?

주요 결과

ELF는 특정 커리큘럼 및 네트워크 선택하에 Mini-RTS에서 빌트인 AI를 이길 수 있는 RTS 에이전트의 엔드-투-엔드 학습을 가능하게 하고 그 확률이 70% 이상이다.
Mini-RTS는 CPU 코어당 40K FPS로 실행되며, 보통의 하드웨어를 갖춘 단일 머신에서 하루 만에 전체 게임 봇을 학습시키는 것을 가능하게 한다.
Leaky ReLU와 Batch Normalization이 포함된 네트워크와 긴 horizon 학습 및 점진적 커리큘럼을 결합하면 기본 대비 승률이 향상된다.
다양한 상대에 대해 학습하거나 상대 유형 간 미세조정할 때 커리큘럼 학습은 성능과 강인성을 크게 향상시킨다.
MCTS는 완전 정보에서 경쟁력 있는 승률을 달성할 수 있지만 학습된 RL AI보다 느리며, 계획과 학습 접근법이 보완적임을 보여준다.
ELF는 유연한 다중 토폴로지 RL 실험을 지원하고 세 가지 RTS 환경(Mini-RTS, Capture the Flag, Tower Defense)에서 강한 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.