[论文解读] LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning
LLM3 使用一个预训练的大语言模型作为领域无关的任务规划器、参数采样器和运动故障推理器来解决 TAMP 问题,在箱子包装仿真和真实机器人中证明了通过运动故障推理实现的效率提升。
Conventional Task and Motion Planning (TAMP) approaches rely on manually crafted interfaces connecting symbolic task planning with continuous motion generation. These domain-specific and labor-intensive modules are limited in addressing emerging tasks in real-world settings. Here, we present LLM^3, a novel Large Language Model (LLM)-based TAMP framework featuring a domain-independent interface. Specifically, we leverage the powerful reasoning and planning capabilities of pre-trained LLMs to propose symbolic action sequences and select continuous action parameters for motion planning. Crucially, LLM^3 incorporates motion planning feedback through prompting, allowing the LLM to iteratively refine its proposals by reasoning about motion failure. Consequently, LLM^3 interfaces between task planning and motion planning, alleviating the intricate design process of handling domain-specific messages between them. Through a series of simulations in a box-packing domain, we quantitatively demonstrate the effectiveness of LLM^3 in solving TAMP problems and the efficiency in selecting action parameters. Ablation studies underscore the significant contribution of motion failure reasoning to the success of LLM^3. Furthermore, we conduct qualitative experiments on a physical manipulator, demonstrating the practical applicability of our approach in real-world settings.
研究动机与目标
- 利用一个预训练的 LLM 提出 TAMP 的符号行动序列,而不需要领域特定的规划文件。
- 将 LLM 用作有信息的采样器以生成连续运动参数。
- 将运动规划反馈整合以推理失败并迭代改进计划。
- 在仿真(箱子包装)和物理执行器上演示框架的有效性。
提出的方法
- 将 TAMP 表示为一个序列预测问题,其中 LLM 输出符号行动和连续参数,给定 s0、g 和 trace。
- 用运动规划器和转换函数对 LLM 生成的计划进行迭代验证,以获得 sǀuture states。
- 收集运动规划反馈(碰撞、不可达)并将其追加到追踪中,以供 LLM 在下一次迭代使用。
- 用零-shot 逐步推理提示 LLM 生成失败推理和改进计划,支持回退和从头开始的变体。
- 通过基于采样的运动规划器(例如 BiRRT)实现地面动作展开并综合出有语义意义的反馈。
- 采用一个与规划器无关的接口,在该接口中 LLM 处理符号规划和参数采样,减少手动领域工程。
实验结果
研究问题
- RQ1在没有预定义规划域的情况下,预训练的 LLM 是否可以充当 TAMP 的领域无关任务规划器?
- RQ2将 LLM 条件化于运动规划反馈是否能提高计划可行性和规划效率?
- RQ3基于 LLM 的参数采样与随机采样在规划迭代次数和运动规划器调用次数方面有何差异?
主要发现
- LLM3 在启用运动故障推理时获得更高的规划成功率和减少的规划工作量。
- 基于 LLM 的参数采样在运动规划方面的样本效率显著高于随机采样。
- 在消融实验中,运动故障推理显著提升了多种设置下的成功率并减少了运动规划器的使用次数。
- 回退和从头开始策略在运动反馈下都受益,但并未在所有场景中产生明确胜者。
- 真实机器人实验表明在感知使能的操控任务中,在现实世界不确定性下的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。