QUICK REVIEW

[論文レビュー] Graph Constrained Reinforcement Learning for Natural Language Action Spaces

Prithviraj Ammanabrolu, Matthew Hausknecht|arXiv (Cornell University)|Jan 23, 2020

Topic Modeling参考文献 18被引用数 36

ひとこと要約

KG-A2Cは知識グラフ状態表現とテンプレートベースのアクション空間を用い、対話的フィクションの大規模自然言語アクション空間を効率的に探索し、多くのJerichoゲームで最先端の性能を達成する。

ABSTRACT

Interactive Fiction games are text-based simulations in which an agent interacts with the world purely through natural language. They are ideal environments for studying how to extend reinforcement learning agents to meet the challenges of natural language understanding, partial observability, and action generation in combinatorially-large text-based action spaces. We present KG-A2C, an agent that builds a dynamic knowledge graph while exploring and generates actions using a template-based action space. We contend that the dual uses of the knowledge graph to reason about game state and to constrain natural language generation are the keys to scalable exploration of combinatorially large natural language actions. Results across a wide variety of IF games show that KG-A2C outperforms current IF agents despite the exponential increase in action space size.

研究の動機と目的

大規模な組み合わせ可能なアクション空間を持つテキストベースのゲームでスケーラブルな強化学習を動機づける。
動的な知識グラフとテンプレートベースのアクション空間を結ぶハイブリッドエージェントを提案する。
グラフ認識のオンポリシー手法でエージェントを訓練し、多様なIFゲームで評価する。
グラフとテンプレートの構成要素の寄与を理解するためのアブレーションを分析する。

提案手法

観察からの更新とルールベースの洗練を通じて動的知識グラフでゲーム状態を表現する。
テンプレートベースの空間でアクション生成を制約し、語彙から埋め、KG由来のグラフマスクで補完する。
GRUとグラフアテンションネットワークを用いて観察とKGをエンコードし、状態埋め込みを生成する。
テンプレートを選択してオブジェクトスロットを埋める二段階プロセスとしてアクションをデコードする。グラフベースのマスクで制約される。
有効アクション損失を用いたAdvantage Actor-Critic (A2C) フレームワークで訓練し、探索を意味のあるアクションへ抑制する。
有効アクションに関する補助エントロピー損失を組み込み、探索を促進し初期収束を防ぐ。

実験結果

リサーチクエスチョン

RQ1知識グラフに基づく状態表現とテンプレートベースのアクション空間を組み合わせることで、NLPの大規模アクション空間に対するスケーラブルなRLが可能か？
RQ2グラフアテンションとグラフ誘導マスキングは学習効率と様々なIFゲームでの性能にどのように影響するか？
RQ3テキストベースのゲームの効果的なポリシー学習において、有効アクションの監督と unrestricted 探索の相対的重要性はどれほどか？

主な発見

ゲーム	\|T\|	\|V\|	TDQN	KG-A2C	最大報酬
905	82	296	0	0	1
acorncourt	151	343	1.6	0.3	30
advent	189	786	36	36	350
adventureland	156	398	0	0	100
anchor	260	2257	0	0	100
awaken	159	505	0	0	50
balances	156	452	4.8	10	51
deephome	173	760	1	1	300
detective	197	344	169	207.9	360
dragon	177	1049	-5.3	0	25
enchanter	290	722	8.6	12.1	400
inhumane	141	409	0.7	3	300
jewel	161	657	0	1.8	90
karn	161	657	1.2	0	90
library	173	510	6.3	14.3	30
ludicorp	187	503	6	17.8	150
moonlit	166	669	0	0	1
omniquest	207	460	16.8	3	50
pentari	155	472	17.4	50.7	70
snacktime	201	468	9.7	0	50
sorcerer	288	1013	5	5.8	400
spellbrkr	333	844	18.7	21.3	600
spirit	169	1112	0.6	1.3	250
temple	175	622	7.9	7.6	35
zenon	149	401	0	3.9	350
zork1	237	697	9.9	34	350
zork3	214	564	0	.1	7
ztuu	186	607	4.9	9.2	100

KG-A2CはJerichoの28ゲーム中23でテンプレート-DQNベースラインと同等か、あるいはそれを上回る。
広範なゲーム群で、アクション空間が前のエージェントの六桁大きさであるにも関わらず、KG-A2Cは強い性能を発揮する。
アブレーションの結果、グラフ成分（GAT）とグラフマスキングは一般的に性能を向上させ、有効アクション監督を取り除くと学習が大幅に低下する。
KG-A2Cは多様なゲームジャンルと状態-アクション構造にわたり堅牢な性能を維持し、アプローチの良い一般化を示す。
アブレーションの結果、テンプレートベースのアクション空間が重要であり、テンプレートなしで単語ごとにデコードするのは性能が低い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。