QUICK REVIEW

[논문 리뷰] TStarBots: Defeating the Cheating Level Builtin AI in StarCraft II in the Full Game

Peng Sun, Xinghai Sun|arXiv (Cornell University)|2018. 09. 19.

Reinforcement Learning in Robotics참고 문헌 8인용 수 54

한 줄 요약

논문은 두 개의 풀게임 스타크래프트 II 에이전트, TStarBot1(매크로-액션 기반 DRL)과 TStarBot2(계층적 매크로-마이크로 + 규칙)를 제시하여 1v1 저그 대 저그 풀게임에서 1에서 10까지의 내장 치트 AI를 이긴다.

ABSTRACT

Starcraft II (SC2) is widely considered as the most challenging Real Time Strategy (RTS) game. The underlying challenges include a large observation space, a huge (continuous and infinite) action space, partial observations, simultaneous move for all players, and long horizon delayed rewards for local decisions. To push the frontier of AI research, Deepmind and Blizzard jointly developed the StarCraft II Learning Environment (SC2LE) as a testbench of complex decision making systems. SC2LE provides a few mini games such as MoveToBeacon, CollectMineralShards, and DefeatRoaches, where some AI agents have achieved the performance level of human professional players. However, for full games, the current AI agents are still far from achieving human professional level performance. To bridge this gap, we present two full game AI agents in this paper - the AI agent TStarBot1 is based on deep reinforcement learning over a flat action structure, and the AI agent TStarBot2 is based on hard-coded rules over a hierarchical action structure. Both TStarBot1 and TStarBot2 are able to defeat the built-in AI agents from level 1 to level 10 in a full game (1v1 Zerg-vs-Zerg game on the AbyssalReef map), noting that level 8, level 9, and level 10 are cheating agents with unfair advantages such as full vision on the whole map and resource harvest boosting. To the best of our knowledge, this is the first public work to investigate AI agents that can defeat the built-in AI in the StarCraft II full game.

연구 동기 및 목표

관측 공간과 행동 공간이 큰 문제를 다루며 풀게임 스타크래프트 II용 AI를 개선한다.
두 개의 서로 다른 에이전트가 AbyssalReef에서 레벨 1–10에 걸친 치트 내장 AI를 이길 수 있음을 입증한다.
매크로 액션 및 계층적 액션 설계가 사전 게임 지식을 학습에 통합하는 방법을 보여준다.
하이브리드 학습 및 모방 궤적 생성을 가능하게 하는 재사용 가능한 벤치마크와 오픈 소스 코드를 제공한다.

제안 방법

TStarBot1은 TechTree 규칙과 실행을 인코딩하는 165개의 미리 정의된 매크로 액션으로 구성된 평면적 매크로 액션 기반 행동 공간을 사용하며, 고수준 RL 컨트롤러가 매크로 액션 위에서 학습한다.
TStarBot2는 모듈식 퍼 모듈별 컨트롤러와 전문가 규칙 기반 하위 계층을 갖춘 매크로-마이크로 계층형 액션 공간을 사용한다.
PySC2 확장은 유닛당 제어를 노출하고 매크로 액션을 지원하기 위한 전체 저그 TechTree를 인코딩한다.
관측은 공간 특성 맵과 비공간 스칼라로 구성되며 보상은 희소한 삼진형 엔드오브게임 신호이다.
학습은 Dueling-DDQN 또는 PPO를 사용하며, 학습 속도 향상을 위한 분산 롤아웃 인프라(1920 액터, 약 3840개의 CPU)를 포함한다.

실험 결과

연구 질문

RQ1매크로 액션 기반 DRL과 계층적 매크로-마이크로 컨트롤러가 풀게임에서 높은 수준의 치트에 맞서는 StarCraft II 내장 AI를 이길 수 있는가?
RQ2매크로 액션 추상화와 TechTree 지식이 엔드 투 엔드 제어와 비교해 학습 효율성과 성능에 어떤 영향을 미치는가?
RQ3대규모 분산 롤아웃을 사용한 풀게임 SC2 에이전트의 학습 효율성과 확장성은 어떠한가?
RQ4풀 SC2에서 인간 수준의 플레이로의 격차를 줄이기 위해 인코딩이 필수적인 게임 지식(TechTree, 강한 규칙 등)은 어떤 유형인가?
RQ5AbyssalReef 1v1 저그-대-저그에서 두 에이전트 설계의 성능 및 학습 복잡도 비교는 어떠한가?

주요 결과

TStarBot1과 TStarBot2 모두 AbyssalReef에서 1에서 10까지의 레벨에 대한 내장 AI를 풀게임(1v1 저그-대-저그)에서 이긴다.
레벨 8, 9, 10은 전체 맵 시야 및 자원 증가 같은 이점을 가진 치트 AI이다.
TStarBot1은 처음부터 학습해 단일 GPU에서 1–2일 내에 가장 강한 봇을 이길 수 있다.
본 논문은 대규모 행동 공간을 관리하고 TechTree 지식을 통합하기 위해 165개의 매크로 액션과 계층적 행동 프레임워크를 도입한다.
PySC2 확장은 유닛당 제어와 정식 TechTree를 제공하여 더 현실적인 유닛-레벨 및 매크로 의사결정을 가능하게 한다.
분산 롤아웃 인프라(1920 액터)가 학습 속도를 크게 높이고 안정성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.