QUICK REVIEW

[论文解读] Learning Dynamic Belief Graphs to Generalize on Text-Based Games

Ashutosh Adhikari, Xingdi Yuan|arXiv (Cornell University)|Feb 21, 2020

Topic Modeling参考文献 56被引用 55

一句话总结

论文提出 GATA，一种图辅助的Transformer代理，能够从文本观测中学习构建和更新潜在信念图，以进行规划并在多款 TextWorld 文本游戏中实现泛化，优于基于文本的基线方法。

ABSTRACT

Playing text-based games requires skills in processing natural language and sequential decision making. Achieving human-level performance on text-based games remains an open challenge, and prior research has largely relied on hand-crafted structured representations and heuristics. In this work, we investigate how an agent can plan and generalize in text-based games using graph-structured representations learned end-to-end from raw text. We propose a novel graph-aided transformer agent (GATA) that infers and updates latent belief graphs during planning to enable effective action selection by capturing the underlying game dynamics. GATA is trained using a combination of reinforcement and self-supervised learning. Our work demonstrates that the learned graph-based representations help agents converge to better policies than their text-only counterparts and facilitate effective generalization across game configurations. Experiments on 500+ unique games from the TextWorld suite show that our best agent outperforms text-based baselines by an average of 24.2%.

研究动机与目标

以学习到的图结构状态表示来解决文本游戏为目标，而非手工设计的启发式策略。
开发一种图增强的Transformer代理（GATA），在规划过程中推断并更新潜在信念图。
使用自监督任务对图更新器进行预训练，以捕捉环境动态。
使用强化学习训练行动选择器以优化奖励。
在未见TextWorld游戏分布上评估泛化，并与真实图基线进行比较。

提出的方法

将环境状态表示为动态信念图 G；G 作为潜在邻接张量进行更新。
使用图更新器从先前的图、观测和上一个行动预测图的变化 Delta g_t；G_t = G_{t-1} ⊕ Delta g_t。
使用观测生成（从 G_t 和 A_{t-1} 的 Seq2Seq 重构 O_t）和对比观测分类（最大化 G_t 与 O_t 之间的互信息）对图更新器进行预训练。
使用关系图卷积网络（R-GCN）对 G_t 进行编码并调整关系嵌入；使用Transformer对 O_t 进行编码；通过双向注意力融合以进行行动评分。
使用 Double DQN（多步、优先经验回放）在来自多款游戏的若干回合中训练行动选择器，以实现跨游戏泛化。

实验结果

研究问题

RQ1学习到的、动态的、图结构表示是否能提升文本游戏中的策略学习和泛化？
RQ2学习到的信念图代理在性能上能接近拥有真实图的代理到何种程度？
RQ3自监督预训练任务是否帮助图更新器从部分文本观测中编码有用的环境动态？

主要发现

GATA 在未见的 TextWorld 游戏上优于强力的基线（包括带有 Transformer 的 DQN 变体）。
使用两种自监督任务对图更新器进行预训练，其效果优于单独使用任意一种任务。
将文本观测与信念图结合，通过注意力引导的评分进一步提升策略质量。
具有真实图（GATA-GTF）的代理比 GATA 获得更高分，但在部分观测条件下，学习到的图仍显示出优势。
GATA-GTF 代表了 GATA 风格图方法的上限，突显改进的状态表示是性能的关键因素。
在不同难度水平上，GATA 相较于仅文本基线在策略质量和泛化方面表现出持续改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。