QUICK REVIEW

[論文レビュー] Interactive Fiction Games: A Colossal Adventure

Matthew Hausknecht, Prithviraj Ammanabrolu|arXiv (Cornell University)|Sep 11, 2019

Natural Language Processing Techniques参考文献 38被引用数 24

ひとこと要約

本論文は、言語ベースのエージェントを研究するための、インタラクティブフィクション（IF）ゲーム向けの包括的強化学習環境「Jericho」を紹介する。テンプレートベースの行動空間を提案し、人間が作成した多様なIFゲームにおいてエージェントを評価することで、組み合わせ的行動空間と一般常識的推論における顕著な課題が明らかになった。主な発見として、現在のエージェントには低いサンプル効率と一般化性能の低さが見られた。

ABSTRACT

A hallmark of human intelligence is the ability to understand and communicate with language. Interactive Fiction games are fully text-based simulation environments where a player issues text commands to effect change in the environment and progress through the story. We argue that IF games are an excellent testbed for studying language-based autonomous agents. In particular, IF games combine challenges of combinatorial action spaces, language understanding, and commonsense reasoning. To facilitate rapid development of language-based agents, we introduce Jericho, a learning environment for man-made IF games and conduct a comprehensive study of text-agents across a rich set of games, highlighting directions in which agents can improve.

研究の動機と目的

言語ベースのエージェントを、インタラクティブフィクションゲームで訓練および評価するための統一的かつスケーラブルな学習環境を構築すること。
順序付き意思決定タスクにおける自然言語生成における組み合わせ的行動空間の課題に対処すること。
成功したIFゲームプレイにおける一般常識的推論とアフォーダンス理解の役割を調査すること。
多様な人間が作成したIFゲームにおいて、テキストベースのエージェントのパフォーマンスを評価すること。
非構造的でテキストのみの環境における言語ベースのエージェントの主な失敗モードと改善の方向性を同定すること。

提案手法

IFコミュニティから収集した100以上の人間が作成したインタラクティブフィクションゲームを基盤とする、Jerichoと呼ばれる学習環境を構築。
自然言語生成を意味的に妥当で文法的に妥当な行動に制限するテンプレートベースの行動空間を定義し、サンプル効率を向上。
IFゲームを部分的に観測可能なマルコフ決定過程（POMDP）としてモデル化。観測はテキスト、内部状態、言語ベースの行動を含む。
DQN や PPO などの深層強化学習エージェントを用い、テキスト観測とスパarsな報酬に基づいて行動方策を学習。
報酬形状化機構を導入し、スコアの進行状況と状態変化に基づいて、スパース報酬環境における探索を支援。
カリキュラム学習と探索戦略を適用し、複雑で長時間にわたるIFゲームにおけるエージェントのパフォーマンスを向上。

実験結果

リサーチクエスチョン

RQ1現在の言語ベースのエージェントは、インタラクティブフィクションゲームにおける複雑で組み合わせ的な行動空間をどれほど効果的にナビゲートできるか？
RQ2テンプレートベースの行動空間は、テキストベースの強化学習環境におけるサンプル効率と方策一般化をどの程度向上できるか？
RQ3IFゲームにおけるエージェントの主な失敗モードは何か。特に一般常識的推論とアフォーダンス理解の観点から。
RQ4物語の複雑さや環境のダイナミクスが異なるIFゲームにおいて、エージェントのパフォーマンスはどのように変化するか？
RQ5IF環境における堅牢な言語ベース意思決定を実現するためには、表現学習、計画、記憶のどの分野に改善が必要か？

主な発見

Jerichoで訓練されたエージェントは、サンプル効率が低く、単純なゲームですら中程度のパフォーマンスに到達するまでに数十万ステップの環境ステップを要する。
自然言語による行動空間の組み合わせ的性質は、膨大な探索課題を引き起こし、可能な行動のほんの僅かな一部しか意味的に妥当または文脈的に関連しない。
一般常識的推論の失敗が顕著である。エージェントは、チェストに鍵が必要であることを認識できず、特定の名詞に対してのみ適用可能な動詞（例：'open'）を誤って使用する場合が多い。
長時間にわたる計画遂行に苦労し、目標を忘れたり、以前に観測したが報酬の可能性がある場所を再訪問できなかったりする。
ゲーム間でのパフォーマンスのばらつきが顕著で、明確な目的とより決定論的なメカニズムを持つゲームでは高いスコアを記録するが、物語が豊かで曖昧な環境では失敗する。
テンプレートベースの行動空間の導入により、方策の安定性が向上し、文法的誤りが減少したが、根本的な推論の制限は完全には解消されなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。