[论文解读] SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
SwiftSage 将一个快速的 Swift 模块(离线训练的小型 LM)与一个缓慢的 Sage 模块(基于 LLM 的规划与落地)结合起来,在 30 个 ScienceWorld 任务上实现了最先进的性能,超越 SayCan、ReAct 和 Reflexion,同时成本更高效。
We introduce SwiftSage, a novel agent framework inspired by the dual-process theory of human cognition, designed to excel in action planning for complex interactive reasoning tasks. SwiftSage integrates the strengths of behavior cloning and prompting large language models (LLMs) to enhance task completion performance. The framework comprises two primary modules: the Swift module, representing fast and intuitive thinking, and the Sage module, emulating deliberate thought processes. The Swift module is a small encoder-decoder LM fine-tuned on the oracle agent's action trajectories, while the Sage module employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a heuristic method to harmoniously integrate the two modules, resulting in a more efficient and robust problem-solving process. In 30 tasks from the ScienceWorld benchmark, SwiftSage significantly outperforms other methods such as SayCan, ReAct, and Reflexion, demonstrating its effectiveness in solving complex interactive tasks.
研究动机与目标
- 激励构建在开放世界环境中能够进行复杂交互推理的智能体。
- 将快速的模仿学习动作选择与缓慢、审慎的子目标规划与落地整合起来。
- 在全面的 ScienceWorld 基准测试上评估双过程智能体,并与现有基线进行比较。
提出的方法
- Swift 模块:一个小型编码-解码 LM(T5-large 风格,770M 参数),离线在 oracle 轨迹上训练,用于编码长动作历史并预测下一个动作(System 1)。
- Sage 模块:基于 GPT-4 的规划与落地,采用两阶段提示(规划与落地)来生成子目标并将其转换为可执行动作序列(一个缓冲的行动计划)。
- 整合:一个启发式控制器在 Swift 和 Sage 之间切换,条件如下(当奖励非零时坚持,当预测无效或异常,或在关键决策时切换)。
- Swift 训练使用多跳模仿学习,采用最近 10 个动作的滑动窗口和 visited-rooms 的历史记录,以减少偏差并提升早期步骤的准确性。
- 落地阶段使用正式的动作语法和动作缓冲区,将长时程子目标转换为可执行动作序列。
实验结果
研究问题
- RQ1结合快速模仿学习和慢速、审慎的LLM规划的双过程智能体,能否超越现有的交互任务智能体?
- RQ2采用两阶段 Sage 模块的规划-落地是否优于单阶段提示方法,在异常处理和长时程任务完成方面有所提升?
- RQ3通过仅在需要时触发深思,是否能够以更低的 LLM 推理成本实现更高的任务完成率?
- RQ4在 ScienceWorld 中对不同长度和复杂度的任务,与 SayCan、ReAct 和 Reflexion 等基线相比,SwiftSage 的表现如何?
主要发现
- SwiftSage 在 ScienceWorld 基准测试上取得总分 84.68,超过 SayCan (33.82)、ReAct (36.43) 和 Reflexion (45.34)。
- 仅 Swift 配置达到 49.26,但完整的 SwiftSage 系统通过利用 Sage 的规划和落地实现更高的性能。
- Sage 模块将每个计划约 5 个动作,且每个动作的成本低于其他基于 LLM 的方法,SwiftSage 的每动作成本为 757.07 tokens (tpa)。
- SwiftSage 在处理环境特定异常方面展现出比 SayCan、ReAct 和 Reflexion 等方法更高的效率与鲁棒性。
- 两阶段的规划-落地方法实现了长时程的规划以及将子目标转换为可执行动作序列,提升落地稳定性,相比单一动作的 LLM 生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。