[论文解读] SPRING: Studying the Paper and Reasoning to Play Games
SPRING 使用由基于 DAG 的推理框架引导的大型语言模型来阅读游戏论文并在 Crafter 中行动,达到超越为 1M 步训练的 prior RL 基线的零样本 GPT-4 性能。该方法无需训练。
Open-world survival games pose significant challenges for AI algorithms due to their multi-tasking, deep exploration, and goal prioritization requirements. Despite reinforcement learning (RL) being popular for solving games, its high sample complexity limits its effectiveness in complex open-world games like Crafter or Minecraft. We propose a novel approach, SPRING, to read the game's original academic paper and use the knowledge learned to reason and play the game through a large language model (LLM). Prompted with the LaTeX source as game context and a description of the agent's current observation, our SPRING framework employs a directed acyclic graph (DAG) with game-related questions as nodes and dependencies as edges. We identify the optimal action to take in the environment by traversing the DAG and calculating LLM responses for each node in topological order, with the LLM's answer to final node directly translating to environment actions. In our experiments, we study the quality of in-context "reasoning" induced by different forms of prompts under the setting of the Crafter open-world environment. Our experiments suggest that LLMs, when prompted with consistent chain-of-thought, have great potential in completing sophisticated high-level trajectories. Quantitatively, SPRING with GPT-4 outperforms all state-of-the-art RL baselines, trained for 1M steps, without any training. Finally, we show the potential of games as a test bed for LLMs.
研究动机与目标
- 研究利用人类撰写的学术论文知识来影响开放世界游戏中的智能体行为的动机。
- 提出一个两阶段流水线:LLM 从 LaTeX 源中提取与游戏相关的知识,然后进行推理以执行行动。
- 证明通过 DAG 的结构化上下文推理可以提升 Crafter 中的 LLM 规划与执行。
提出的方法
- 通过阅读 Hafner (2021) 的相关 LaTeX 段落来生成一个上下文字符串,以捕捉游戏机制和科技树依赖。
- 构建一个 QA-DAG,其中每个节点都是与游戏玩法相关的问题,边缘编码依赖关系以强制一致的链式推理。
- 在每一步按拓扑顺序遍历 DAG 来生成 LLM 的答案,将最终节点映射到 17 个离散行动之一。
- 使用可视描述符将游戏观测转译为 LLM 输入的纯文本。
- 将问题-上下文对拼接成一个上下文 C,并以 C 与近期观测为条件对 LLM 的回答进行约束。
- 评估提示变体和消融实验,以研究上下文、DAG 结构,以及 GPT-4 与 GPT-3.5 的重要性。
实验结果
研究问题
- RQ1LLM 能否从学术 LaTeX 源读出可执行的游戏知识来 inform Crafter 的决策吗?
- RQ2基于 DAG 的、在上下文中的链式推理提示策略是否在不进行 RL 训练的情况下提升开放世界游戏的规划与行动选择?
- RQ3在零样本设定下,GPT-4 与此前基线的 RL 在 Crafter 上相比如何?
- RQ4上下文质量与提示设计对基于 LLM 的游戏表现有何影响?
主要发现
- SPRING 使用 GPT-4 超越了为 1M 步训练的最先进 RL 基线,且无需训练。
- SPRING 在五次试验中实现 27.3% 的游戏分数和 12.3 的奖励(±0.7),且无需训练。
- SPRING 相对前一代 SOTA RL 方法在游戏分数上提升了 88%。
- 该方法在深度为 5 的科技树任务中实现显著的解锁,且在诸如制造和挖矿等困难任务上优于基线。
- 消融实验表明上下文 C、基于 DAG 的提示和 GPT-4 对最佳性能都很关键;GPT-3.5 的表现明显较差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。