QUICK REVIEW

[论文解读] Counting to Explore and Generalize in Text-based Games

Xingdi Yuan, Marc-Alexandre Côté|arXiv (Cornell University)|Jun 29, 2018

Artificial Intelligence in Games参考文献 17被引用 50

一句话总结

本文提出一个带有基于回合的探索的循环强化学习代理，用于文本型游戏，结果显示它学会的策略能够泛化到未见的、难度更高的游戏。

ABSTRACT

We propose a recurrent RL agent with an episodic exploration mechanism that helps discovering good policies in text-based game environments. We show promising results on a set of generated text-based games of varying difficulty where the goal is to collect a coin located at the end of a chain of rooms. In contrast to previous text-based RL approaches, we observe that our agent learns policies that generalize to unseen games of greater difficulty.

研究动机与目标

在文本型游戏（POMDPs）中激励探索策略，以发现有效的策略。
开发一个能够在部分可观测的文本环境中利用记忆的循环强化学习代理。
提出一个基于分段计数的探索奖励，鼓励在每个回合内访问新的状态。
使用文本型游戏生成器评估对不同难度未见游戏的泛化能力。

提出的方法

在 LSTM-DQN 的基础上扩展一个基于 LSTM 的循环动作评分器（LSTM-DRQN），以应对部分可观测性。
引入两个发现奖励：(i) 在整个训练过程中的累计计数奖励，(ii) 在每个回合重置计数的分段奖励，以鼓励在一个回合内访问未见状态。
使用一个文本型采币域（coin-collector），具有确定性转移和一个由两个单词组成的动作空间，用于测试记忆与探索。
在不同难度的游戏（easy/medium/hard）上进行训练与评估，并测试对未见游戏的零-shot 泛化。
与非循环基线进行比较，并在不同训练集规模下评估泛化能力。

实验结果

研究问题

RQ1与累计奖励相比，分段计数探索是否能提升文本型 POMDP 的学习效果？
RQ2将循环结构（DRQN）与分段探索结合起来，是否能对未见、难度更高的文本型游戏进行泛化？
RQ3随着游戏难度和训练集规模的变化，累计探索奖励与分段探索奖励的表现有何不同？
RQ4在对一组游戏进行训练、在未见实例上测试时，能产生哪些零-shot 泛化能力？

主要发现

带有记忆的分段发现奖励显著提高学习以及对未见、难度更高的游戏的泛化。
随着游戏难度的提高，累计计数奖励的帮助较小，而分段奖励和记忆在分布学习方面更具鲁棒性。
预训练的循环模型对未见的简单/困难游戏具有更好的泛化，尤其是具备对最近步骤的记忆时。
在困难的导航布局中出现了类似贴墙行走的策略，提升了在非循环地图上的泛化能力。
零-shot 评估表明，带有记忆的模型在训练较少数量的游戏时泛化能力更好，而较大的训练集有助于简单游戏的泛化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。