Skip to main content
QUICK REVIEW

[논문 리뷰] Counting to Explore and Generalize in Text-based Games

Xingdi Yuan, Marc-Alexandre Côté|arXiv (Cornell University)|2018. 06. 29.
Artificial Intelligence in Games참고 문헌 17인용 수 50
한 줄 요약

이 논문은 텍스트 기반 게임에 대해 에피소드 기반 카운트 탐색을 갖춘 순환 RL 에이전을 제시하며, unseen 더 어려운 게임에 일반화되는 정책을 학습한다는 것을 보여준다.

ABSTRACT

We propose a recurrent RL agent with an episodic exploration mechanism that helps discovering good policies in text-based game environments. We show promising results on a set of generated text-based games of varying difficulty where the goal is to collect a coin located at the end of a chain of rooms. In contrast to previous text-based RL approaches, we observe that our agent learns policies that generalize to unseen games of greater difficulty.

연구 동기 및 목표

  • 텍스트 기반 게임(POMDP)에서 효과적인 정책을 발견하기 위한 탐색 전략의 동기 부여.
  • 부분적으로 관찰 가능한 텍스트 환경에서 메모리를 활용할 수 있는 순환 RL 에이전트를 개발.
  • 에피소드 내에서 새로운 상태를 방문하도록 독려하기 위한 에피소드 기반 카운트 기반 탐색 보너스를 제안.
  • 다양한 난이도의 보이지 않는 게임으로의 일반화를 텍스트 기반 게임 제너레이터를 사용해 평가합니다.

제안 방법

  • 부분 관측성을 다루기 위해 LSTM-DQN을 확장한 LSTM 기반 순환 액션 점수기(LSTM-DRQN)를 도입합니다.
  • 두 가지 발견 보너스를 도입합니다: (i) 모든 학습에 걸친 누적 카운트 기반 보너스, (ii) 에피소드를 재설정하는 에피소드 보너스: 에피소드 내에서 보지 못한 상태를 장려합니다.
  • 메모리와 탐색을 테스트하기 위해 결정적 전이와 두 단어의 행동 공간을 가지는 텍스트 기반 코인-컬렉터 도메인을 사용합니다.
  • 쉬움/중간/어려움의 다양한 난이도에서 게임을 학습하고 평가하며, 보지 못한 게임에 대한 무샷 일반화를 테스트합니다.
  • 비순환 기준선과 비교하고 다른 학습 세트 크기에서 일반화를 평가합니다.

실험 결과

연구 질문

  • RQ1에피소드 기반 카운트 기반 탐색이 누적 보너스와 비교하여 텍스트 기반 POMDP에서 학습을 개선할 수 있는가?
  • RQ2에피소드 탐색과 함께 DRQN 같은 순환 구조가 보이지 않는 더 어려운 텍스트 기반 게임으로 일반화할 수 있는가?
  • RQ3게임 난이도와 학습 데이터 크기에 따라 누적 탐색 보너스와 에피소드 탐색 보너스의 성능 차이가 어떻게 나타나는가?
  • RQ4게임 분포에서 학습하고 보지 않은 인스턴스에서 제로샷 일반화 능력은 어떠한가?

주요 결과

  • 에피소드 탐색 보너스와 순환 구조가 학습과 보지 않은 더 어려운 게임으로의 일반화를 크게 향상시킨다.
  • 누적 카운트 보너스는 게임 난이도가 상승함에 따라 도움이 덜하고, 에피소드 보너스와 순환 구조가 분포 학습에 더 강건하다.
  • 사전 학습된 순환 모델은 특히 최근의 단계에 대한 기억이 있을 때 보이지 않는 쉽고 어려운 게임에 더 잘 일반화한다.
  • 어려운 탐색 맵에서 벽을 따라 추적하는 전략이 나타나 비 순환 맵 간 일반화를 가능하게 한다.
  • 제로샷 평가에서 재귀가 있는 모델이 더 적은 게임에서 학습되었을 때 더 잘 일반화하며, 대규모 학습 데이터가 쉬운 게임 일반화에 도움을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.