QUICK REVIEW

[논문 리뷰] Playing FPS Games with Deep Reinforcement Learning

Guillaume Lample, Devendra Singh Chaplot|arXiv (Cornell University)|2016. 09. 18.

Reinforcement Learning in Robotics인용 수 111

한 줄 요약

저자들은 ViZDoom에서 3D FPS 데스매치를 위한 게임 피처 보강과 페이즈 기반 네트워크를 도입한 DRQN 기반 에이전트를 개발하여 초인간 성능과 더 빠른 학습을 달성한다.

ABSTRACT

Advances in deep reinforcement learning have allowed autonomous agents to perform well on Atari games, often outperforming humans, using only raw pixels to make their decisions. However, most of these games take place in 2D environments that are fully observable to the agent. In this paper, we present the first architecture to tackle 3D environments in first-person shooter games, that involve partially observable states. Typically, deep reinforcement learning methods only utilize visual input for training. We present a method to augment these models to exploit game feature information such as the presence of enemies or items, during the training phase. Our model is trained to simultaneously learn these features along with minimizing a Q-learning objective, which is shown to dramatically improve the training speed and performance of our agent. Our architecture is also modularized to allow different models to be independently trained for different phases of the game. We show that the proposed architecture substantially outperforms built-in AI agents of the game as well as humans in deathmatch scenarios.

연구 동기 및 목표

순환 신경망을 사용하여 3D FPS 환경에서의 부분 관찰 가능성에 대응한다.
게임 피처 보강을 통해 학습 효율성과 성능을 향상시킨다.
태스크를 내비게이션과 액션 단계로 나누고 모듈식 네트워크를 사용하여 학습 속도를 향상시킨다.
알 수 없는 맵에 대한 일반화와 인간 플레이어 및 내장 봇과의 비교를 시연한다.

제안 방법

두 개의 시각 스트림을 갖춘 DRQN 아키텍처를 기반으로 한다: CNN 출력이 LSTM과 보조 피처 헤드 모두에 feed된다.
훈련 중에 이진 게임 피처 지시자(적의 존재, 아이템의 존재)를 입력에 보강하여 컨볼루션 필터를 안내한다.
탐색용 내비게이션 네트워크(DQN)와 전투용 피처가 보강된 DRQN으로 구성된 두 단계 아키텍처를 도입한다; 적의 존재 여부로 단계를 결정한다.
피처 탐지가 정책 학습에 정보를 주도록 Q-learning 목표와 함께 게임 피처를 공동 학습한다.
희소/지연 보상을 완화하기 위해 보상 설계(reward shaping)를 적용하고 학습 속도를 높이기 위해 프레임 건너뛰기(frame-skipping)를 사용한다.
학습 안정화를 위해 최소 히스토리로 순차적 DRQN 업데이트를 사용한다.

실험 결과

연구 질문

RQ1부분적으로 관측 가능한 3D FPS 환경에서 DRQN 기반 에이전트가 효과적인 정책을 학습할 수 있는가?
RQ2훈련 중에 게임 엔진 피처를 포함하는 것이 테스트 시점에 사용 불가하더라도 학습 속도와 성능 향상을 가져오는가?
RQ3탐색/액션 아키텍처를 분할하는 것이 단일 모놀리식 네트워크에 비해 학습 효율성과 최종 성능을 향상시키는가?
RQ4본 접근법이 알 수 없는 맵에 얼마나 잘 일반화되며 인간 플레이어 및 내장 봇과의 비교에서 어떤 성능을 보이는가?

주요 결과

게임 피처가 보강된 DRQN은 데스매치 과제에서 기본 DRQN에 비해 성능을 크게 향상시킨다.
탐색 인식형 모듈화가 단일 네트워크보다 더 나은 성능을 보이며, 'camper' 행동을 줄이고 맵 탐색을 개선한다.
게임 피처 공동 학습으로 적 탐지 정확도가 몇 시간의 학습 후 약 90%에 도달하여 학습 속도를 향상시킨다.
ViZDoom 데스매치에서 단일 플레이어 및 멀티플레이어 설정 모두에서 에이전트가 내장 Doom 봇과 인간 플레이어를 능가한다 (단일 플레이어: Human 1.52 대 Agent 5.12; 멀티플레이어: Human 0.49 대 Agent 1.33의 K/D 비율).
내비게이션이 사용될 때 에이전트는 더 많은 오브젝트 수집 및 K/D 비율을 달성한다(예: 전체 데스매치에서 무기/악세서리 획득으로 더 큰 이득이 나타남).
최대적으로, 피처가 있는 상태에서 K/D 비율이 4.0을 넘고, 이 아키텍처는 보지 못한 맵으로의 일반화를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.