Skip to main content
QUICK REVIEW

[논문 리뷰] TStarBot-X: An Open-Sourced and Comprehensive Study for Efficient League Training in StarCraft II Full Game

Lei Han, Jiechao Xiong|arXiv (Cornell University)|2020. 11. 27.
Artificial Intelligence in Games참고 문헌 28인용 수 24
한 줄 요약

TStarBot-X는 2000만 파라미터만을 사용하여 컴퓨팅 자원을 크게 절감한 오픈소스 AI 에이전트로, 규칙 기반 정책 탐색, 안정화된 정책 개선, 경량 신경망 아키텍처, 그리고 암시적 학습에서의 중요도 샘플링 기법을 통해 스타크래프트 II에서 저그 대 저그 전투에서 경쟁 가능한 성능을 달성한다. 이는 알파스타보다 훨씬 낮은 수준의 파라미터 수를 사용한 것으로, 제한된 컴퓨팅 자원에도 불구하고 전문 인간 플레이어를 압도하는 평가 결과를 보이며, 전략적 다양성과 효율적인 훈련이 스케일 제약을 상쇄할 수 있음을 입증한다.

ABSTRACT

StarCraft, one of the most difficult esport games with long-standing history of professional tournaments, has attracted generations of players and fans, and also, intense attentions in artificial intelligence research. Recently, Google's DeepMind announced AlphaStar, a grandmaster level AI in StarCraft II that can play with humans using comparable action space and operations. In this paper, we introduce a new AI agent, named TStarBot-X, that is trained under orders of less computations and can play competitively with expert human players. TStarBot-X takes advantage of important techniques introduced in AlphaStar, and also benefits from substantial innovations including new league training methods, novel multi-agent roles, rule-guided policy search, stabilized policy improvement, lightweight neural network architecture, and importance sampling in imitation learning, etc. We show that with orders of less computation scale, a faithful reimplementation of AlphaStar's methods can not succeed and the proposed techniques are necessary to ensure TStarBot-X's competitive performance. We reveal all technical details that are complementary to those mentioned in AlphaStar, showing the most sensitive parts in league training, reinforcement learning and imitation learning that affect the performance of the agents. Most importantly, this is an open-sourced study that all codes and resources (including the trained model parameters) are publicly accessible via \url{https://github.com/tencent-ailab/tleague_projpage}. We expect this study could be beneficial for both academic and industrial future research in solving complex problems like StarCraft, and also, might provide a sparring partner for all StarCraft II players and other AI agents.

연구 동기 및 목표

  • 제한된 컴퓨팅 자원에도 불구하고 전문 인간 플레이어와 경쟁 가능한 성능을 내는 계산적으로 효율적이고 오픈소스화된 스타크래프트 II AI 에이전트를 개발하는 것.
  • 알파스타에서 유래한 핵심 기법들이 제약된 컴퓨팅 환경에서 어떻게 적응되고 향상될 수 있는지, 특히 리그 훈련과 암시적 학습에서의 적용을 탐구하는 것.
  • 다중 에이전트 강화학습 및 암시적 학습에서 에이전트 성능에 결정적인 영향을 미치는 민감한 기술적 요소를 규명하는 것.
  • 미래의 연구를 가속화하기 위해 전체 코드, 모델, 훈련 자원을 공개할 수 있는 공개 가능한 프레임워크를 제공하는 것.

제안 방법

  • 알파스타의 13900만 파라미터보다 훨씬 낮은 2000만 파라미터(정책용 1725만, 가치용 275만)를 사용하는 경량 신경망 아키텍처를 도입하여 모델 크기를 크게 줄였다.
  • 암시적 학습에서 중요도 샘플링을 적용하여 단순 행동 클로닝보다 성능을 향상시켰으며, 엘리트봇(레벨 7)에 대한 승률을 68%에서 90%로 상승시켰다.
  • 인간 지식을 정책 네트워크에 통합하기 위해 규칙 기반 정책 탐색 기법을 도입하여 고차원 행동 공간에서의 비용이 큰 탐색에 의존도를 낮췄다.
  • 다양한 역할(주 에이전트, 탐험자, 그리고 새로운 '적대적 탐지자' 역할)을 가진 다각도의 다중 에이전트 리그를 설계하여 전략적 다양성을 높이고 정책 붕괴를 방지했다.
  • 편향 증강 정책 최적화 기법을 적용하여 정책 개선 과정을 안정화하고 훈련 중 성능 저하를 방지했다.
  • 전체 훈련 파이프라인을 텐센트 클라우드에 구축하여 알파스타 대비 데이터 소비 속도의 1/30, 데이터 생성 속도의 1/73으로 운영하면서도 경쟁 가능한 성능을 달성했다.

실험 결과

연구 질문

  • RQ1알파스타 수준의 인프라에 접근할 수 없는 조건에서도 경량이고 저소비 컴퓨팅 AI 에이전트가 스타크래프트 II 저그 대 저그 전투에서 인간 수준의 성능을 달성할 수 있는가?
  • RQ2제한된 컴퓨팅 자원에서 중요도 샘플링 기반 암시적 학습과 규칙 기반 정책 탐색 기법이 성능에 어떤 영향을 미치는가?
  • RQ3다양한 에이전트 역할을 통해 구현된 리그의 전략적 다양성은 정책의 강건성과 일반화 능력 향상에 어떤 역할을 하는가?
  • RQ4안정화된 정책 최적화와 경량 아키텍처는 모델 용량과 훈련 데이터 처리 속도 감소의 영향을 어느 정도 상쇄할 수 있는가?
  • RQ5리그 훈련과 암시적 학습에서의 기술적 선택은 최종 에이전트가 전문 인간 플레이어와 경쟁할 능력에 어떤 영향을 미치는가?

주요 결과

  • 중요도 샘플링을 적용한 감독 기반 암시적 학습을 통해 엘리트봇(레벨 7)에 대해 90%의 승률을 기록했으며, 이는 중요도 샘플링 없이 사용할 경우 68%에 그쳤다.
  • 에이전트의 평균 APM/EPM는 232/196로 측정되었으며, 최고치는 609/519에 이르러 파라미터 수가 적음에도 불구하고 인간 수준의 타이밍과 동작 효율성을 보였다.
  • 규칙 기반 정책 탐색의 적용으로 광범위한 탐색이 크게 줄어들어 샘플 효율성과 정책 안정성이 향상되었다.
  • 리그에 '적대적 탐지자' 에이전트를 포함시킴으로써 전략적 다양성이 향상되었고, 특히 단일 정책 훈련에서의 과적합을 방지하는 데 기여했다.
  • 알파스타 대비 데이터 소비 속도의 1/30, 데이터 생성 속도의 1/73으로 운영되었음에도 불구하고, 아키텍처적 및 알고리즘적 혁신 덕분에 경쟁 가능한 성능을 달성했다.
  • 전체 코드, 모델, 훈련 자원의 오픈소스 배포를 통해 향후 전이 학습, 다중 에이전트 시스템, 복잡한 환경 제어 분야의 연구를 가속화할 수 있게 되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.