Skip to main content
QUICK REVIEW

[論文レビュー] Learning Dynamic Knowledge Graphs to Generalize on Text-Based Games.

Ashutosh Adhikari, Xingdi Yuan|arXiv (Cornell University)|Feb 21, 2020
Topic Modeling被引用数 19
ひとこと要約

本論文では、生のテキストからエンド・トゥ・エンドに動的知識グラフを学習するグラフ支援トランスフォーマー型エージェント、GATAを提案する。この手法により、テキストベースのゲームにおける計画性と一般化性能が向上する。強化学習と自己教師あり学習を組み合わせることで、GATAは500以上のTextWorldゲームにおいて、テキストのみのベースラインを平均24.2%上回り、優れた方策収束性と一般化性能を示した。

ABSTRACT

Playing text-based games requires skills in processing natural language and sequential decision making. Achieving human-level performance on text-based games remains an open challenge, and prior research has largely relied on hand-crafted structured representations and heuristics. In this work, we investigate how an agent can plan and generalize in text-based games using graph-structured representations learned end-to-end from raw text. We propose a novel graph-aided transformer agent (GATA) that infers and updates latent belief graphs during planning to enable effective action selection by capturing the underlying game dynamics. GATA is trained using a combination of reinforcement and self-supervised learning. Our work demonstrates that the learned graph-based representations help agents converge to better policies than their text-only counterparts and facilitate effective generalization across game configurations. Experiments on 500+ unique games from the TextWorld suite show that our best agent outperforms text-based baselines by an average of 24.2%.

研究の動機と目的

  • テキストベースのゲームエージェントにおける手作業で作成された表現やヒューリスティクスの限界を克服すること。
  • 多様なゲーム設定にわたり、効果的な逐次的意思決定と一般化を可能にすること。
  • 生のテキスト記述からエンド・トゥ・エンドに構造的で動的な知識グラフを学習すること。
  • グラフ構造の信念表現を通じて、方策学習と計画性能を向上させること。

提案手法

  • エージェントは計画中に潜在的信念グラフを推論・更新するグラフ支援トランスフォーマー・アーキテクチャを採用する。
  • エージェントは生のテキストシーケンス上で自己教師あり学習を用いて事前学習し、初期のグラフ構造を構築する。
  • 強化学習による微調整により、ゲーム固有の報酬に基づいてエージェントを最適化し、観測された遷移に基づいてグラフを更新する。
  • 信念グラフはエンティティ間の関係とゲーム状態のダイナミクスを捉え、より良い行動選択を可能にする。
  • グラフの更新は微分可能であり、方策勾配を用いたエンド・トゥ・エンド学習が可能である。
  • 文書トークンとグラフノードの両方に対するアテンション機構を統合することで、文脈的推論を強化する。

実験結果

リサーチクエスチョン

  • RQ1エンド・トゥ・エンドで学習された動的知識グラフは、テキストベースのゲームにおける方策学習を改善できるか?
  • RQ2グラフ構造の表現は、未観測のゲーム設定への一般化をどのように向上させるか?
  • RQ3自己教師あり学習と強化学習を組み合わせることで、テキストのみのベースラインと比較してエージェントの性能はどの程度向上するか?
  • RQ4潜在的グラフを用いることで、動的で複雑なゲーム環境下でも効果的な計画を維持できるか?

主な発見

  • GATAはTextWorldスイートの500以上のゲームにおいて、テキストのみのベースラインを平均24.2%上回った。
  • 学習されたグラフ表現により、テキストのみのモデルと比較して、高パフォーマンスな方策への収束が著しく速くなった。
  • 構造的で動的な知識エンコードのおかげで、未観測のゲーム設定への一般化が顕著に向上した。
  • 生のテキスト上で自己教師あり事前学習を実施することで、下流の強化学習性能が向上した。
  • 動的グラフの更新により、エージェントは進化するゲーム状態と関係性を適応的にモデル化できるようになった。
  • グラフ支援アプローチにより、複雑なテキストベースの環境におけるより頑健で解釈可能な意思決定が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。