Skip to main content
QUICK REVIEW

[논문 리뷰] Illuminating Generalization in Deep Reinforcement Learning through Procedural Level Generation

Niels Justesen, Rubén Rodríguez Torrado|arXiv (Cornell University)|2018. 06. 28.
Reinforcement Learning in Robotics참고 문헌 33인용 수 119
한 줄 요약

본 논문은 훈련 중 Procedural Content Generation (PCG) 및 Progressive PCG (PPCG)가 여러 2D 게임에서 인간이 설계한 수준을 포함한 보지 않은 새로운 레벨에 대한 심층 강화학습 에이전트의 일반화에 어떤 영향을 미치는지 조사한다. PPCG는 일부 게임에서 일반화와 성능을 개선할 수 있지만, 훈련 수준과 테스트 수준 간의 분포 불일치는 여전히 주요 도전 과제이다.

ABSTRACT

Deep reinforcement learning (RL) has shown impressive results in a variety of domains, learning directly from high-dimensional sensory streams. However, when neural networks are trained in a fixed environment, such as a single level in a video game, they will usually overfit and fail to generalize to new levels. When RL models overfit, even slight modifications to the environment can result in poor agent performance. This paper explores how procedurally generated levels during training can increase generality. We show that for some games procedural level generation enables generalization to new levels within the same distribution. Additionally, it is possible to achieve better performance with less data by manipulating the difficulty of the levels in response to the performance of the agent. The generality of the learned behaviors is also evaluated on a set of human-designed levels. The results suggest that the ability to generalize to human-designed levels highly depends on the design of the level generators. We apply dimensionality reduction and clustering techniques to visualize the generators' distributions of levels and analyze to what degree they can produce levels similar to those designed by a human.

연구 동기 및 목표

  • 2D 아케이드 게임에서 고정된 제한된 레벨에서 훈련될 때 심층 RL 에이전트가 과적합하는지 입증한다.
  • 프로시저리로 생성된 레벨이 학습 분포 내에서 일반화를 개선하는지 및 그 이상에서 일반화를 강화할 수 있는지 평가한다.
  • 에이전트의 학습 중 난이도에 적응하는 Progressive PCG를 도입한다.
  • 생성된 레벨의 분포를 차원 축소와 클러스터링을 사용해 인간이 설계한 레벨과 비교 분석한다.

제안 방법

  • General Video Game AI (GVG-AI) 프레임워크에 연결된 OpenAI Gym에서 CNN 기반 네트워크를 사용하는 A2C (Advantage Actor-Critic) 활용.
  • 다음 네 가지 훈련 체제를 구현: 단일 인간이 설계한 레벨; 다수의 인간이 설계한 레벨; 난이도가 고정된 PCG; 승패 신호에 따라 난이도를 조정하는 Progressive PCG.
  • 활성 레벨 크기, 오브젝트 수, 레이아웃 난이도에 영향을 주는 제어 가능한 난이도 매개변수를 갖춘 Boulder Dash, Frogs, Solarfox, Zelda용 구성적 PCG 생성기 개발.
  • 레벨 난이도 0에서 시작해 승리 시 증가(패배 시 감소)하는 PPCG를 도입하되 병렬 작업자 간에 공유되는 난이도.
  • 30개의 미리 생성된 레벨을 난이도 0.5와 1에서 테스트하고, 다섯 개의 인간 설계 레벨과 비교하여 일반화를 평가; 무작위 및 최대 점수 기준선과의 비교.
  • 생성된 레벨의 분포를 인간이 설계한 레벨과 시각화하고 분석하기 위해 PCA 및 DBSCAN 적용

실험 결과

연구 질문

  • RQ1고정된 레벨 집합에서의 훈련이 과적합과 보지 못한 레벨에 대한 일반화 저하를 야기하는가?
  • RQ2훈련 중 생성된 레벨이 생성된 레벨 분포 내에서 일반화를 개선할 수 있으며, PPCG가 이 일반화를 더욱 향상시킬 수 있는가?
  • RQ3생성기 설계와 레벨 난이도 진행이 인간 설계 레벨로의 전이성에 어떤 영향을 미치는가?
  • RQ4생성된 레벨이 차원 축소 및 클러스터링으로 평가될 때 인간이 설계한 레벨의 분포를 근사하는가?

주요 결과

  • 단일 레벨에서 훈련된 에이전트는 학습 레벨에서 높은 점수를 보이지만 테스트 레벨에 대한 일반화가 떨어져 과적합이 나타난다.
  • 프로시저리로 생성된 레벨은 학습 분포 내의 보지 못한 레벨에 대한 일반화를 가능하게 하며, PPCG는 에이전트 성능에 맞춰 난이도를 조정해 학습을 더 돕는다.
  • PPCG는 Frogs에서 특히 유의미한 향상(하드 레벨에서의 57% 승률)과 Zelda에서의 일반화를 달성하는 반면, Solarfox와 Boulderdash에서는 고정 난이도 PCG가 특정 설정에서 PPCG보다 우수할 수 있다.
  • 생성된 레벨의 일반화는 인간이 설계한 레벨과의 일치도에 따라 고르게 이루어지지 않으며, 레벨 생성기 설계와 생성기 분포와 인간 설계 레이아웃 간의 정렬에 크게 의존한다.
  • 차원 축소 및 클러스터링은 생성된 레벨에서 뚜렷한 클러스터를 드러내고, 일부 인간 설계 레벨이 이상치로 나타나 생성된 콘텐츠와 인간 설계 콘텐츠 간의 분포 격차를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.