Skip to main content
QUICK REVIEW

[论文解读] Graph Constrained Reinforcement Learning for Natural Language Action Spaces

Prithviraj Ammanabrolu, Matthew Hausknecht|arXiv (Cornell University)|Jan 23, 2020
Topic Modeling参考文献 18被引用 36
一句话总结

KG-A2C 使用知识图谱状态表示和基于模板的动作空间,在互动小说中高效探索大规模自然语言动作空间,在大量 Jericho 游戏上达到最先进的性能。

ABSTRACT

Interactive Fiction games are text-based simulations in which an agent interacts with the world purely through natural language. They are ideal environments for studying how to extend reinforcement learning agents to meet the challenges of natural language understanding, partial observability, and action generation in combinatorially-large text-based action spaces. We present KG-A2C, an agent that builds a dynamic knowledge graph while exploring and generates actions using a template-based action space. We contend that the dual uses of the knowledge graph to reason about game state and to constrain natural language generation are the keys to scalable exploration of combinatorially large natural language actions. Results across a wide variety of IF games show that KG-A2C outperforms current IF agents despite the exponential increase in action space size.

研究动机与目标

  • 在具有组合性大规模动作空间的文字游戏中推动可扩展的强化学习。
  • 提出一个将动态知识图谱与模板化动作空间耦合的混合代理。
  • 使用图感知的在线策略方法训练代理,并在多样的 IF 游戏中进行评估。
  • 分析消融实验以理解图组件和模板组件对性能的贡献。

提出的方法

  • 用从观测中更新的动态知识图谱表示游戏状态,通过 OpenIE 和基于规则的细化来表示游戏状态的动态知识图谱。
  • 用基于模板的空间约束动作生成,该空间从词汇表填充,并由KG派生的图掩码约束。
  • 通过 GRU 和图注意网络对观测和知识图谱进行编码,以生成状态嵌入。
  • 将动作解码为两阶段过程:先选择模板,再填充对象槽,由基于图的掩码约束。
  • 在 Advantage Actor-Critic (A2C) 框架下训练,使用有效动作损失将探索限制在有意义的动作上。
  • 在有效动作上加入辅助熵损失以促进探索并防止过早收敛。

实验结果

研究问题

  • RQ1将知识图谱为基础的状态表示与基于模板的动作空间相结合,是否能够在 NLP 动作空间实现可扩展的强化学习?
  • RQ2图注意力与图引导掩码如何影响在多样的 IF 游戏中的学习效率和性能?
  • RQ3有效动作监督相对于不受限探索在学习文本游戏的有效策略中的相对重要性是什么?

主要发现

  • KG-A2C 在 28 个 Jericho 游戏中有 23 个达到或超越 Template-DQN 基线。
  • 在广泛的游戏集合中,即使动作空间比以往代理大六个数量级,KG-A2C 仍然取得了强劲的性能。
  • 消融结果显示图组件(GAT)和图掩码通常能提升性能;移除有效动作监督会大幅降低学习效果。
  • KG-A2C 在不同游戏类型和状态-动作结构上保持稳健表现,表明该方法具有良好的泛化性。
  • 消融表明模板化动作空间至关重要;不使用模板的逐词解码表现很差。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。