[论文解读] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents
RAP 存储过去的经验并动态检索以指导文本-only和多模态LLM代理的规划,在文本任务上实现最先进的性能,并在具身多模态任务上取得显著提升。
Owing to recent advancements, Large Language Models (LLMs) can now be deployed as agents for increasingly complex decision-making applications in areas including robotics, gaming, and API integration. However, reflecting past experiences in current decision-making processes, an innate human behavior, continues to pose significant challenges. Addressing this, we propose Retrieval-Augmented Planning (RAP) framework, designed to dynamically leverage past experiences corresponding to the current situation and context, thereby enhancing agents' planning capabilities. RAP distinguishes itself by being versatile: it excels in both text-only and multimodal environments, making it suitable for a wide range of tasks. Empirical evaluations demonstrate RAP's effectiveness, where it achieves SOTA performance in textual scenarios and notably enhances multimodal LLM agents' performance for embodied tasks. These results highlight RAP's potential in advancing the functionality and applicability of LLM agents in complex, real-world applications.
研究动机与目标
- 在文本与多模态环境中,激励利用过去经验来进行LLM代理规划的必要性。
- 提出一个 Retrieval-Augmented Planning (RAP) 框架,用于存储、检索并利用过去的经验来为当前决策提供信息。
- 展示 RAP 在文本基准(例如 ALFWorld、WebShop)和具身机器人基准(例如 Franka Kitchen、Meta-World)上的有效性。
- 证明记忆增强的规划在多种LLM骨干模型和视觉-语言模型上提升性能。
提出的方法
- 介绍四个核心 RAP 组件:Memory、Reasoner、Retriever 和 Executor。
- 将成功任务执行的情节日志作为记忆存储,包括任务信息、总体计划和轨迹。
- 使用 Reasoner(LLMs)基于当前上下文生成总体计划和行动计划以及检索键。
- 将检索分数计算为任务相似度、计划对齐和检索键相似度的加权组合,以选择相关记忆。
- 通过检索经验作为提示,在上下文学习中使用 Executor(LLM)生成下一个动作。
- 展示跨模型的记忆可迁移性(用一个模型构建的记忆可帮助另一模型的评估)。
实验结果
研究问题
- RQ1如何有效存储和检索过去的经验,以提升文本与多模态环境中LLM代理的规划?
- RQ2记忆增强的规划器是否在文本基准和具身机器人基准上优于最先进的基线?
- RQ3RAP 是否对不同语言模型和视觉-语言模型具有鲁棒性,记忆是否可以在模型之间迁移?
- RQ4在不同环境中,哪种检索策略(行动-act、观测-obs、多模态)能带来最佳性能?
主要发现
| 方法(d max =3) | 模型 | 选择 | 清洁 | 加热 | 冷却 | 查看 | Pick2 | 全部 |
|---|---|---|---|---|---|---|---|---|
| Act | GPT-3.5 | 66.7 | 51.6 | 73.9 | 61.9 | 38.9 | 17.6 | 53.7 |
| ReAct | GPT-3.5 | 50.0 | 41.9 | 73.9 | 66.7 | 55.6 | 23.5 | 52.2 |
| Reflexion | GPT-3.5 | 75.0 | 77.4 | 65.2 | 76.2 | 83.3 | 70.6 | 74.6 |
| ADaPT * | GPT-3.5 | 87.5 | 80.6 | 60.8 | 76.2 | 61.1 | 52.9 | 71.6 |
| RAP(Ours) | GPT-3.5 | 95.8 | 87.1 | 78.3 | 90.5 | 88.9 | 70.6 | 85.8 |
| RAP train (Ours) | GPT-3.5 | 95.8 | 100.0 | 82.6 | 85.7 | 100.0 | 76.5 | 91.0 |
| ReAct | GPT-4 | 83.3 | 71.0 | 95.7 | 81.0 | 100.0 | 94.1 | 85.8 |
| RAP(Ours) | GPT-4 | 95.8 | 90.3 | 100.0 | 95.2 | 100.0 | 88.2 | 94.8 |
| ReAct | Llama2-13b | 29.2 | 41.9 | 34.8 | 52.4 | 38.9 | 17.6 | 36.6 |
| RAP(Ours) | Llama2-13b | 62.5 | 61.3 | 56.5 | 61.9 | 44.4 | 17.6 | 53.0 |
- RAP 在 ALFWorld、WebShop、Franka Kitchen、Meta World 基准上超过 ReAct,取得显著提升(分别为约 33.6%、13.0%、18.2%、12.7% 的增益)。
- 在 ALFWorld,使用 GPT-3.5 的 RAP 总体达到 85.8%,RAP 训练在各任务达到 91.0%,超越 ReAct、Reflexion 和 ADaPT。
- 在 WebShop,使用 GPT-3.5 的 RAP 获得 76.1% 的总分和 48.0% 的成功率,优于 ReAct、Reflexion 和 ADaPT。
- 在多模态基准(Franka Kitchen、Meta-World)中,经过 RAP 增强的 LLaVA 与 CogVLM 代理在平均成功率方面显示显著提升(例如,LLaVA 从 43.4% 提升到 61.6%,CogVLM 从 44.2% 提升到 56.9%)。
- RAP 展示了通过记忆在模型之间进行迁移学习(用 GPT-3.5 构建的记忆可帮助 LLaMA-13B 的评估)。
- RAP 的消融研究表明,使用多模态检索键(图像)以及任务内/产品类别检索组件带来好处。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。