QUICK REVIEW
[論文レビュー] Counting to Explore and Generalize in Text-based Games
Xingdi Yuan, Marc-Alexandre Côté|arXiv (Cornell University)|Jun 29, 2018
Artificial Intelligence in Games参考文献 17被引用数 50
ひとこと要約
本論文は、テキストベースのゲームに対するエピソードごとのカウントベース探索を備えた再帰的強化学習エージェントを提示し、それが未見で難易度の高いゲームへ一般化するポリシーを学習することを示している。
ABSTRACT
We propose a recurrent RL agent with an episodic exploration mechanism that helps discovering good policies in text-based game environments. We show promising results on a set of generated text-based games of varying difficulty where the goal is to collect a coin located at the end of a chain of rooms. In contrast to previous text-based RL approaches, we observe that our agent learns policies that generalize to unseen games of greater difficulty.
研究の動機と目的
- テキストベースのゲーム(POMDPs)における探索戦略の動機づけと、効果的なポリシーの発見を目指す。
- 部分的に観測可能なテキスト環境で記憶を活用できる再帰的RLエージェントの開発。
- 各エピソード内の新しい状態の訪問を促すエピソディックカウントベースの探索ボーナスを提案。
- テキストベースのゲーム生成器を用いて、さまざまな難易度の未見ゲームへの一般化を評価。
提案手法
- 部分観測性に対処するため、LSTM-DRQNと呼ばれるLSTMベースの再帰的アクションスコアラーを用いてLSTM-DQNを拡張する。
- 2つの探索ボーナスを導入する:(i) 全トレーニングを通じた累積カウントベースボーナス、(ii) 各エピソードごとにカウントをリセットするエピソディックボーナスで、エピソード内の未見状態を奨励する。
- メモリと探索を検証するため、決定論的遷移と2語のアクション空間を持つテキストベースのコイン収集ドメインを使用。
- 難易度の異なるゲーム(easy/medium/hard)で学習・評価を行い、未見ゲームへのゼロショット一般化をテスト。
- 非再帰的ベースラインと比較し、異なるトレーニングセットサイズ下での一般化を評価。
実験結果
リサーチクエスチョン
- RQ1累積ボーナスと比較して、エピソディックカウントベース探索はテキストベースのPOMDPでの学習を改善できるか?
- RQ2エピソディック探索と組み合わせた再帰的アーキテクチャ(DRQN)は、未見でより難しいテキストベースのゲームへ一般化するか?
- RQ3ゲーム難易度とトレーニングセットサイズが変化する際、累積探索ボーナスとエピソディック探索ボーナスはどのように性能を示すか?
- RQ4ゲームの分布で学習し未見のインスタンスでテストした場合、どのようなゼロショット一般化能力が現れるか?
主な発見
- 再帰を伴うエピソディック探索ボーナスは、学習と未見で難易度の高いゲームへの一般化を著しく向上させる。
- ゲーム難易度が上がるにつれ累積カウントボーナスの効果は低くなる一方、エピソディックボーナスと再帰は分布学習に対してより頑健である。
- 事前学習済みの再帰的モデルは、最近の手順の記憶を特に活用した場合、未見のeasy/hardゲームへより良く一般化する。
- 難しいナビゲーションレイアウトでは壁沿いのフォロー戦略のようなものが現れ、非循環マップ間の一般化を可能にする。
- ゼロショット評価は、再帰を持つモデルが少数のゲームで学習した場合により良く一般化し、より大きなトレーニングセットは easyゲームの一般化を助ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。