QUICK REVIEW

[論文レビュー] Counting to Explore and Generalize in Text-based Games

Xingdi Yuan, Marc-Alexandre Côté|arXiv (Cornell University)|Jun 29, 2018

Artificial Intelligence in Games参考文献 17被引用数 50

ひとこと要約

本論文は、テキストベースのゲームに対するエピソードごとのカウントベース探索を備えた再帰的強化学習エージェントを提示し、それが未見で難易度の高いゲームへ一般化するポリシーを学習することを示している。

ABSTRACT

We propose a recurrent RL agent with an episodic exploration mechanism that helps discovering good policies in text-based game environments. We show promising results on a set of generated text-based games of varying difficulty where the goal is to collect a coin located at the end of a chain of rooms. In contrast to previous text-based RL approaches, we observe that our agent learns policies that generalize to unseen games of greater difficulty.

研究の動機と目的

テキストベースのゲーム（POMDPs）における探索戦略の動機づけと、効果的なポリシーの発見を目指す。
部分的に観測可能なテキスト環境で記憶を活用できる再帰的RLエージェントの開発。
各エピソード内の新しい状態の訪問を促すエピソディックカウントベースの探索ボーナスを提案。
テキストベースのゲーム生成器を用いて、さまざまな難易度の未見ゲームへの一般化を評価。

提案手法

部分観測性に対処するため、LSTM-DRQNと呼ばれるLSTMベースの再帰的アクションスコアラーを用いてLSTM-DQNを拡張する。
2つの探索ボーナスを導入する：(i) 全トレーニングを通じた累積カウントベースボーナス、(ii) 各エピソードごとにカウントをリセットするエピソディックボーナスで、エピソード内の未見状態を奨励する。
メモリと探索を検証するため、決定論的遷移と2語のアクション空間を持つテキストベースのコイン収集ドメインを使用。
難易度の異なるゲーム（easy/medium/hard）で学習・評価を行い、未見ゲームへのゼロショット一般化をテスト。
非再帰的ベースラインと比較し、異なるトレーニングセットサイズ下での一般化を評価。

実験結果

リサーチクエスチョン

RQ1累積ボーナスと比較して、エピソディックカウントベース探索はテキストベースのPOMDPでの学習を改善できるか？
RQ2エピソディック探索と組み合わせた再帰的アーキテクチャ（DRQN）は、未見でより難しいテキストベースのゲームへ一般化するか？
RQ3ゲーム難易度とトレーニングセットサイズが変化する際、累積探索ボーナスとエピソディック探索ボーナスはどのように性能を示すか？
RQ4ゲームの分布で学習し未見のインスタンスでテストした場合、どのようなゼロショット一般化能力が現れるか？

主な発見

再帰を伴うエピソディック探索ボーナスは、学習と未見で難易度の高いゲームへの一般化を著しく向上させる。
ゲーム難易度が上がるにつれ累積カウントボーナスの効果は低くなる一方、エピソディックボーナスと再帰は分布学習に対してより頑健である。
事前学習済みの再帰的モデルは、最近の手順の記憶を特に活用した場合、未見のeasy/hardゲームへより良く一般化する。
難しいナビゲーションレイアウトでは壁沿いのフォロー戦略のようなものが現れ、非循環マップ間の一般化を可能にする。
ゼロショット評価は、再帰を持つモデルが少数のゲームで学習した場合により良く一般化し、より大きなトレーニングセットは easyゲームの一般化を助ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。