[论文解读] Learning Dynamic Knowledge Graphs to Generalize on Text-Based Games.
本文提出 GATA,一种图增强的 Transformer 代理,能够从原始文本端到端学习动态知识图谱,以提升文本游戏中的规划与泛化能力。通过结合强化学习与自监督学习,GATA 在 500 多个 TextWorld 游戏中平均优于仅使用文本的基线模型 24.2%,展现出更优的策略收敛性与泛化能力。
Playing text-based games requires skills in processing natural language and sequential decision making. Achieving human-level performance on text-based games remains an open challenge, and prior research has largely relied on hand-crafted structured representations and heuristics. In this work, we investigate how an agent can plan and generalize in text-based games using graph-structured representations learned end-to-end from raw text. We propose a novel graph-aided transformer agent (GATA) that infers and updates latent belief graphs during planning to enable effective action selection by capturing the underlying game dynamics. GATA is trained using a combination of reinforcement and self-supervised learning. Our work demonstrates that the learned graph-based representations help agents converge to better policies than their text-only counterparts and facilitate effective generalization across game configurations. Experiments on 500+ unique games from the TextWorld suite show that our best agent outperforms text-based baselines by an average of 24.2%.
研究动机与目标
- 为克服文本游戏代理中手工设计表示与启发式方法的局限性。
- 实现在多样化游戏配置下的有效序列决策与泛化能力。
- 从原始文本描述中端到端学习结构化、动态的知识图谱。
- 通过图结构化的信念表示,提升策略学习与规划性能。
提出的方法
- GATA 采用图增强的 Transformer 架构,在规划过程中推断并更新潜在信念图。
- 代理利用自监督学习在原始文本序列上进行预训练,以构建初始图结构。
- 强化学习在游戏特定奖励上微调代理,根据观察到的转移更新图结构。
- 信念图捕捉实体间关系与游戏状态动态,从而实现更优的动作选择。
- 图更新过程可微分,支持通过策略梯度实现端到端训练。
- 模型在文本标记与图节点上均集成注意力机制,以增强上下文推理能力。
实验结果
研究问题
- RQ1端到端学习的动态知识图谱是否能提升文本游戏中的策略学习?
- RQ2图结构化表示在未见过的游戏配置中如何提升泛化能力?
- RQ3与仅使用文本的基线相比,结合自监督学习与强化学习在多大程度上提升了代理性能?
- RQ4代理是否能通过潜在图在动态且复杂的游戏环境中维持有效的规划能力?
主要发现
- 在 TextWorld 套件的 500 多个游戏中,GATA 平均优于仅使用文本的基线模型 24.2%。
- 所学习的图表示使代理能比仅使用文本的模型更快收敛到高性能策略。
- 由于结构化、动态的知识编码,代理在未见过的游戏配置中的泛化能力显著提升。
- 在原始文本上进行自监督预训练可增强下游强化学习的性能。
- 动态图更新使代理能够自适应地建模不断演变的游戏状态与关系。
- 图增强方法在复杂文本游戏环境中实现了更鲁棒且可解释的决策能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。