[论文解读] How to Avoid Being Eaten by a Grue: Structured Exploration Strategies for Textual Worlds
本论文提出 MC!Q*BERT,一种利用知识图谱和内在动机来检测并克服文本游戏中的瓶颈状态的智能体——这是标准强化学习在延迟奖励和稀疏反馈下难以有效探索的关键挑战。该方法首次成功解决了《Zork》中著名的 Grue 瓶颈问题,在九款游戏中均超越了先前的最先进智能体,通过结合结构化探索与策略链方法实现。
Text-based games are long puzzles or quests, characterized by a sequence of sparse and potentially deceptive rewards. They provide an ideal platform to develop agents that perceive and act upon the world using a combinatorially sized natural language state-action space. Standard Reinforcement Learning agents are poorly equipped to effectively explore such spaces and often struggle to overcome bottlenecks---states that agents are unable to pass through simply because they do not see the right action sequence enough times to be sufficiently reinforced. We introduce Q*BERT, an agent that learns to build a knowledge graph of the world by answering questions, which leads to greater sample efficiency. To overcome bottlenecks, we further introduce MC!Q*BERT an agent that uses an knowledge-graph-based intrinsic motivation to detect bottlenecks and a novel exploration strategy to efficiently learn a chain of policy modules to overcome them. We present an ablation study and results demonstrating how our method outperforms the current state-of-the-art on nine text games, including the popular game, Zork, where, for the first time, a learning agent gets past the bottleneck where the player is eaten by a Grue.
研究动机与目标
- 为解决文本游戏中稀疏且延迟的奖励问题,标准强化学习智能体因动作空间组合爆炸而难以有效探索。
- 通过分析游戏世界的结构,检测并克服瓶颈状态——即需要长距离依赖关系、但未被直接奖励的关键决策点。
- 通过使智能体学习一系列按顺序解决依赖关系的策略模块,提升样本效率和探索能力,从而推进游戏进程。
- 证明基于知识图谱构建的内在动机可帮助智能体避免过早收敛于局部最优但全局次优的轨迹。
提出的方法
- 智能体 Q*BERT 通过向游戏状态提问来构建知识图谱,将位置和物品库存依赖关系编码为有向无环图(DAG)中的顶点。
- MC!Q*BERT 利用该知识图谱计算内在奖励,以指示向解决依赖关系的进展,尤其是那些游戏本身未直接奖励的依赖。
- 对依赖图进行拓扑排序,将瓶颈状态识别为某一层中唯一且位于高奖励状态之前的顶点。
- 智能体采用结构化探索策略,优先选择能促成依赖关系满足的动作,利用内在奖励引导探索超越即时奖励的范围。
- 通过策略链方法组合可复用的策略模块,以按顺序解决复杂依赖链中的各个瓶颈。
- 消融实验评估了内在动机和图结构改进的必要性,结果表明二者结合对性能至关重要。
实验结果
研究问题
- RQ1能否通过知识图谱衍生的内在动机提升在稀疏且延迟奖励的文本游戏中探索能力?
- RQ2基于知识图谱的方法在检测未被直接奖励但对游戏推进至关重要的瓶颈状态方面效果如何?
- RQ3在组合爆炸式状态-动作空间中,结构化探索结合策略链是否优于默认的探索策略(如 ε-greedy)?
- RQ4在奖励设置不当的游戏环境中,内在动机在多大程度上可防止智能体过早收敛于局部最优轨迹?
主要发现
- MC!Q*BERT 首次成功解决《Zork》中著名的 Grue 瓶颈问题,若智能体在无光源的情况下进入黑暗地窖,将被吃掉。
- 引入内在动机显著提升了瓶颈检测能力,防止智能体停留在如收集鸡蛋或过早进入地窖等局部高奖励路径。
- 缺乏内在动机的智能体无法学会获取灯笼或排空蓄水池,从而错失推进游戏所必需的关键依赖。
- 改进的知识图谱构建与内在动机的结合,在九款文本游戏中均带来更一致的最高分表现,超越了 Q*BERT 和 KG-A2C。
- 消融实验确认,仅改进图结构或仅采用结构化探索均不足以实现性能突破——唯有二者结合才能实现稳健的瓶颈解决。
- 该方法表明,基于知识图谱的内在奖励在稀疏且具有欺骗性的奖励信号环境中,对引导探索至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。