[论文解读] Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
DEPS 是一个使用大模型进行开放世界多任务代理的交互式规划框架,通过描述、解释、计划和选择循环以及一个面向时域的预测选择器来提高计划的可靠性;它在零样本 Minecraft 任务中的性能表现出色,并能泛化到 ALFWorld 和桌面任务。
We investigate the challenge of task planning for multi-task embodied agents in open-world environments. Two main difficulties are identified: 1) executing plans in an open-world environment (e.g., Minecraft) necessitates accurate and multi-step reasoning due to the long-term nature of tasks, and 2) as vanilla planners do not consider how easy the current agent can achieve a given sub-task when ordering parallel sub-goals within a complicated plan, the resulting plan could be inefficient or even infeasible. To this end, we propose "$\underline{D}$escribe, $\underline{E}$xplain, $\underline{P}$lan and $\underline{S}$elect" ($ extbf{DEPS}$), an interactive planning approach based on Large Language Models (LLMs). DEPS facilitates better error correction on initial LLM-generated $ extit{plan}$ by integrating $ extit{description}$ of the plan execution process and providing self-$ extit{explanation}$ of feedback when encountering failures during the extended planning phases. Furthermore, it includes a goal $ extit{selector}$, which is a trainable module that ranks parallel candidate sub-goals based on the estimated steps of completion, consequently refining the initial plan. Our experiments mark the milestone of the first zero-shot multi-task agent that can robustly accomplish 70+ Minecraft tasks and nearly double the overall performances. Further testing reveals our method's general effectiveness in popularly adopted non-open-ended domains as well (i.e., ALFWorld and tabletop manipulation). The ablation and exploratory studies detail how our design beats the counterparts and provide a promising update on the $ exttt{ObtainDiamond}$ grand challenge with our approach. The code is released at https://github.com/CraftJarvis/MC-Planner.
研究动机与目标
- 解决开放世界(如 Minecraft)中长时域规划的挑战,即计划可能不可行或低效。
- 通过描述符和解释器反馈实现对错误的感知以进行计划修正,从而提高计划鲁棒性。
- 通过引入可训练的面向近端可达子目标的时域基准选择器,提升可行性。
- Demonstrate zero-shot capability to solve 70+ Minecraft tasks without environment-specific planning training.
- Show generalization to non-open-ended domains like ALFWorld and tabletop manipulation.
提出的方法
- 提出 DEPS:一个循环,其中 LLM 充当描述符、解释器和计划者,迭代地细化子目标。
- 使用描述符在子目标执行失败后总结当前状态并将其输入给 LLM 以进行自我解释和重新规划。
- 引入一个时域预测选择器,估计完成每个候选子目标所需的剩余步骤(时域),并选择最近/最可行的一个。
- 训练一个选择器骨干网(基于 Impala CNN)以预测目标可行性和时域,从而提高计划效率。
- 以零-shot 的 LLM 规划器和一个目标条件控制器为基础,通过学习策略执行子目标来使方法落地。

实验结果
研究问题
- RQ1LLM 基于规划器如何在开放世界、长时域任务中从失败中恢复?
- RQ2基于反馈的重新规划(描述、解释、计划)是否能在开放世界中提升成功率,相较于一次性规划?
- RQ3一个面向时域的选择器是否能提升开放世界任务中子目标序列的效率和可行性?
- RQ4DEPS 在 Minecraft 之外的领域(如 ALFWorld 和桌面操作)有多大程度的泛化能力?
- RQ5多轮重新规划对开放式环境中的任务成功率有何影响?
主要发现
| 方法 | MT1 | MT2 | MT3 | MT4 | MT5 | MT6 | MT7 | MT8 | AVG |
|---|---|---|---|---|---|---|---|---|---|
| DEPS | 79.77 | 79.46 | 62.40 | 53.32 | 29.24 | 13.80 | 12.56 | 0.59 | 48.56 |
- DEPS 在 71 个 Minecraft 任务上显著优于所有语言规划基线,整体成功率几乎翻倍。
- 消融实验表明,带有描述、自我解释和重新规划的 DEP 相较于以往规划器更优,再加入选择器(DEPS)带来进一步提升。
- 时域预测选择器提高了效率,特别是在具有多个并行目标的任务中,并在可行性排序方面超越了视觉-语言基线。
- 更多的重新规划轮次带来更高的成功率,对于更难的任务,收益增长直至时域受限的 token 限制。
- DEPS 在 ObtainDiamond 上达到 0.59% 的性能,10 分钟内即可完成,与当前的零样本规划性能相当,并且展示出强大的跨域结果(ALFWorld、Tabletop)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。