Skip to main content
QUICK REVIEW

[論文レビュー] Learning Dynamic Belief Graphs to Generalize on Text-Based Games

Ashutosh Adhikari, Xingdi Yuan|arXiv (Cornell University)|Feb 21, 2020
Topic Modeling参考文献 56被引用数 55
ひとこと要約

本論文は、テキスト観察から潜在的信念グラフを構築・更新し、計画を立て、複数の TextWorld テキストベースのゲームに跨って一般化するグラフ補助トランスフォーマーエージェント「GATA」を提案し、テキストベースのベースラインを上回る。

ABSTRACT

Playing text-based games requires skills in processing natural language and sequential decision making. Achieving human-level performance on text-based games remains an open challenge, and prior research has largely relied on hand-crafted structured representations and heuristics. In this work, we investigate how an agent can plan and generalize in text-based games using graph-structured representations learned end-to-end from raw text. We propose a novel graph-aided transformer agent (GATA) that infers and updates latent belief graphs during planning to enable effective action selection by capturing the underlying game dynamics. GATA is trained using a combination of reinforcement and self-supervised learning. Our work demonstrates that the learned graph-based representations help agents converge to better policies than their text-only counterparts and facilitate effective generalization across game configurations. Experiments on 500+ unique games from the TextWorld suite show that our best agent outperforms text-based baselines by an average of 24.2%.

研究の動機と目的

  • 手作りのヒューリスティックではなく、学習済みのグラフ構造化状態表現を用いてテキストベースのゲームを解くことを動機付ける。
  • 計画中に潜在的信念グラフを推定・更新するグラフ補助トランスフォーマーエージェント(GATA)を開発する。
  • 環境ダイナミクスを捉えるため、自己教師付きタスクでグラフアップデータを事前学習する。
  • 報酬を最適化するよう、強化学習でアクションセレクタを訓練する。
  • 見知らぬ TextWorld ゲームの分布全体で一般化を評価し、真のグラフベースラインと比較する。

提案手法

  • 環境状態を動的信念グラフGとして表現する。Gは潜在的隣接テンソルとして更新される。
  • グラフアップデータを用いて前のグラフ・観察・直前の行動からグラフの変化Delta g_tを予測する;G_t = G_{t-1} ⊕ Delta g_t。
  • Observation Generation(G_tとA_{t-1}からO_tのSeq2Seq再構成)とContrastive Observation Classification(G_tとO_tのMI最大化)でグラフアップデータを事前学習する。
  • Relational Graph Convolutional Networks (R-GCN)でG_tをエンコードし、関係埋め込みを適応させる; O_tをTransformerでエンコードする; 双方向アテンションで統合してアクションスコアを算出する。
  • 複数のゲームから抽出したエピソードに対して、Double DQN(多ステップ、優先リプレイ)でアクションセレクタを訓練し、ゲーム横断一般化を可能にする。

実験結果

リサーチクエスチョン

  • RQ1学習された動的なグラフ構造表現は、テキストベースのゲームにおける方策学習と一般化を改善できるか。
  • RQ2学習された信念グラフベースのエージェントは、真のグラフにアクセスできるエージェントの性能にどれだけ近づけるか。
  • RQ3自己教師付き事前学習タスクは、部分的なテキスト観察からグラフアップデータが有用な環境ダイナミクスをコード化するのに役立つか。

主な発見

  • GATAは、未見のTextWorldゲームで、強力なテキストベースのベースライン(トランスフォーマー搭載DQNバリアントを含む)を上回る。
  • グラフアップデータを自己教師付きタスクの両方で事前学習すると、単独で用いるより性能が向上する。
  • 信念グラフとともにテキスト観察を用いると、注意機構に基づくスコアリングを通じて方策の質がさらに向上する。
  • 真のグラフ(GATA-GTF)にアクセスできるエージェントはGATAより高いスコアを達成するが、部分観察設定における学習済みグラフの利点を示している。
  • GATA-GTFはGATAスタイルのグラフベース手法の上限を示し、改善された状態表現を性能の重要因子として強調する。
  • 難易度レベルを問わず、GATAはテキストのみベースラインに対して方策の質と一般化の一貫した改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。