Skip to main content
QUICK REVIEW

[論文レビュー] Graph Constrained Reinforcement Learning for Natural Language Action Spaces

Prithviraj Ammanabrolu, Matthew Hausknecht|arXiv (Cornell University)|Jan 23, 2020
Topic Modeling参考文献 18被引用数 36
ひとこと要約

KG-A2Cは知識グラフ状態表現とテンプレートベースのアクション空間を用い、対話的フィクションの大規模自然言語アクション空間を効率的に探索し、多くのJerichoゲームで最先端の性能を達成する。

ABSTRACT

Interactive Fiction games are text-based simulations in which an agent interacts with the world purely through natural language. They are ideal environments for studying how to extend reinforcement learning agents to meet the challenges of natural language understanding, partial observability, and action generation in combinatorially-large text-based action spaces. We present KG-A2C, an agent that builds a dynamic knowledge graph while exploring and generates actions using a template-based action space. We contend that the dual uses of the knowledge graph to reason about game state and to constrain natural language generation are the keys to scalable exploration of combinatorially large natural language actions. Results across a wide variety of IF games show that KG-A2C outperforms current IF agents despite the exponential increase in action space size.

研究の動機と目的

  • 大規模な組み合わせ可能なアクション空間を持つテキストベースのゲームでスケーラブルな強化学習を動機づける。
  • 動的な知識グラフとテンプレートベースのアクション空間を結ぶハイブリッドエージェントを提案する。
  • グラフ認識のオンポリシー手法でエージェントを訓練し、多様なIFゲームで評価する。
  • グラフとテンプレートの構成要素の寄与を理解するためのアブレーションを分析する。

提案手法

  • 観察からの更新とルールベースの洗練を通じて動的知識グラフでゲーム状態を表現する。
  • テンプレートベースの空間でアクション生成を制約し、語彙から埋め、KG由来のグラフマスクで補完する。
  • GRUとグラフアテンションネットワークを用いて観察とKGをエンコードし、状態埋め込みを生成する。
  • テンプレートを選択してオブジェクトスロットを埋める二段階プロセスとしてアクションをデコードする。グラフベースのマスクで制約される。
  • 有効アクション損失を用いたAdvantage Actor-Critic (A2C) フレームワークで訓練し、探索を意味のあるアクションへ抑制する。
  • 有効アクションに関する補助エントロピー損失を組み込み、探索を促進し初期収束を防ぐ。

実験結果

リサーチクエスチョン

  • RQ1知識グラフに基づく状態表現とテンプレートベースのアクション空間を組み合わせることで、NLPの大規模アクション空間に対するスケーラブルなRLが可能か?
  • RQ2グラフアテンションとグラフ誘導マスキングは学習効率と様々なIFゲームでの性能にどのように影響するか?
  • RQ3テキストベースのゲームの効果的なポリシー学習において、有効アクションの監督と unrestricted 探索の相対的重要性はどれほどか?

主な発見

ゲーム|T||V|TDQNKG-A2C最大報酬
90582296001
acorncourt1513431.60.330
advent1897863636350
adventureland15639800100
anchor260225700100
awaken1595050050
balances1564524.81051
deephome17376011300
detective197344169207.9360
dragon1771049-5.3025
enchanter2907228.612.1400
inhumane1414090.73300
jewel16165701.890
karn1616571.2090
library1735106.314.330
ludicorp187503617.8150
moonlit166669001
omniquest20746016.8350
pentari15547217.450.770
snacktime2014689.7050
sorcerer288101355.8400
spellbrkr33384418.721.3600
spirit16911120.61.3250
temple1756227.97.635
zenon14940103.9350
zork12376979.934350
zork32145640.17
ztuu1866074.99.2100
  • KG-A2CはJerichoの28ゲーム中23でテンプレート-DQNベースラインと同等か、あるいはそれを上回る。
  • 広範なゲーム群で、アクション空間が前のエージェントの六桁大きさであるにも関わらず、KG-A2Cは強い性能を発揮する。
  • アブレーションの結果、グラフ成分(GAT)とグラフマスキングは一般的に性能を向上させ、有効アクション監督を取り除くと学習が大幅に低下する。
  • KG-A2Cは多様なゲームジャンルと状態-アクション構造にわたり堅牢な性能を維持し、アプローチの良い一般化を示す。
  • アブレーションの結果、テンプレートベースのアクション空間が重要であり、テンプレートなしで単語ごとにデコードするのは性能が低い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。