QUICK REVIEW

[論文レビュー] TextWorld: A Learning Environment for Text-based Games

Marc-Alexandre Côté, Ákos Kádár|arXiv (Cornell University)|Jun 29, 2018

Reinforcement Learning in Robotics参考文献 26被引用数 96

ひとこと要約

TextWorldは、テキストベースのゲームで強化学習エージェントを訓練・評価するためのPythonフレームワークであり、難易度・言語・観察性を制御できる手作りまたは自動生成のゲームを有効にします。

ABSTRACT

We introduce TextWorld, a sandbox learning environment for the training and evaluation of RL agents on text-based games. TextWorld is a Python library that handles interactive play-through of text games, as well as backend functions like state tracking and reward assignment. It comes with a curated list of games whose features and challenges we have analyzed. More significantly, it enables users to handcraft or automatically generate new games. Its generative mechanisms give precise control over the difficulty, scope, and language of constructed games, and can be used to relax challenges inherent to commercial text games like partial observability and sparse rewards. By generating sets of varied but similar games, TextWorld can also be used to study generalization and transfer learning. We cast text-based games in the Reinforcement Learning formalism, use our framework to develop a set of benchmark games, and evaluate several baseline agents on this set and the curated list.

研究の動機と目的

テキストベースのゲームにおける機械学習の課題を調査し、手作成されたゲームを分析する。
TextWorldフレームワーク、その特徴、およびRL研究での使用法を説明する。
RL評価のための初期のテキストベースベンチマークゲームのセットを提供する。
ベンチマークと手作成ゲームの双方でベースラインRLエージェントを評価する。
TextWorldをカリキュラム、一般化、転移学習研究の生きたリソースとして推進する。

提案手法

テキストベースのゲームをRL形式論 (MDP/POMDP) にフレーム化する。
対話的なプレイを扱うゲームエンジンとゲームジェネレータの2要素アーキテクチャを導入する。
前向き連鎖/後向き連鎖を用いて、有効なゲーム状態と遷移を構築するために、論理ベースの推論エンジンを使用する。
Random Walkで作成されたマップと、依存制約および前向き/後向のメカニズムを用いて生成されたクエストによってゲームを生成する。
CFG駆動のテキスト生成器を用いて、ゲーム状態を自然言語の記述にレンダリングする。
生成されたゲームをInform 7/Glulxへコンパイルするインターフェースと、統一APIを通じてエージェントと対話するインターフェースを提供する。
カリキュラム、一般化、転移を研究するための任意の中間報酬と調整可能な観察性を提供する。

実験結果

リサーチクエスチョン

RQ1テキストベースのゲームをRL研究の統制可能なベンチマークとしてどのように形式化できるか？
RQ2TextWorldは一般化と転移学習を研究するために、さまざまで関連するゲームの生成をどのように可能にするか？
RQ3厳選されたおよび生成されたテキストベースベンチマークでどのベースラインRL手法が機能し、その限界は何か？
RQ4クエストの長さ、マップサイズ、語彙などの制御可能な要素は、学習ダイナミクスと言語理解にどのように影響するか？
RQ5スパース報酬・部分観察的なテキスト環境での訓練を促進する効果的な戦略（例：中間報酬）は何か？

主な発見

TextWorldは、RL研究のためのテキストベースのゲームを生成し、対話するためのスケーラブルなフレームワークを提供します。
このフレームワークは、ゲーム状態の構造化表現と勝利ポリシーを通じて、正確な状態追跡と中間報酬を可能にします。
環境パラメータを変化させ、関連するゲームを生成することにより、カリキュラムと転移学習の実験をサポートします。
手作成されたテキストゲームの厳選リストと初期ベンチマークセットを導入し、それらでベースラインエージェントを評価します。
著者らはTextWorldを、コミュニティの貢献と新しいベンチマークとともに進化する生きたリソースとして位置づけます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。