QUICK REVIEW

[论文解读] PDDLStream: Integrating Symbolic Planners and Blackbox Samplers via Optimistic Adaptive Planning

Caelan Reed Garrett, Tomás Lozano‐Pérez|arXiv (Cornell University)|Feb 23, 2018

AI-based Problem Solving and Planning被引用 26

一句话总结

PDDLStream 引入了一个框架，将符号化的 PDDL 规划器与黑箱采样过程相结合，用于连续、高维的规划问题。通过使用流来声明性地指定采样过程，并采用一种自适应算法以平衡探索与利用，该框架高效地解决了复杂的机器人任务与运动规划问题，在约束性和成本敏感性任务上优于以往的方法。

ABSTRACT

Many planning applications involve complex relationships defined on high-dimensional, continuous variables. For example, robotic manipulation requires planning with kinematic, collision, visibility, and motion constraints involving robot configurations, object poses, and robot trajectories. These constraints typically require specialized procedures to sample satisfying values. We extend PDDL to support a generic, declarative specification for these procedures that treats their implementation as black boxes. We provide domain-independent algorithms that reduce PDDLStream problems to a sequence of finite PDDL problems. We also introduce an algorithm that dynamically balances exploring new candidate plans and exploiting existing ones. This enables the algorithm to greedily search the space of parameter bindings to more quickly solve tightly-constrained problems as well as locally optimize to produce low-cost solutions. We evaluate our algorithms on three simulated robotic planning domains as well as several real-world robotic tasks.

研究动机与目标

解决在具有复杂约束（如运动学、碰撞和视野）的连续、高维空间中进行规划的挑战，例如在机器人操作中。
克服现有 PDDL 扩展的局限性，这些扩展需要离散化或有限的动作空间，从而限制了其在真实世界机器人领域中的适用性。
通过封装黑箱采样过程的声明性流，实现对连续动作参数的领域无关、模块化指定。
开发能够动态平衡新计划探索与现有计划利用的算法，以提高效率和解的质量。
在模拟和真实世界的机器人规划任务（包括操作和厨房任务）中，证明该框架的有效性。

提出的方法

扩展 PDDL，引入流——基于输入生成值序列的条件生成器，同时声明性地指定这些值必须满足的约束。
将连续动作参数（如机器人构型、轨迹）建模为流的输出，将其具体实现视为黑箱。
使用 Incremental、Focused、Binding 算法以及一种新型 Adaptive 算法，将 PDDLStream 问题简化为一系列有限的 PDDL 问题。
实现 Adaptive 算法，以平衡探索（寻找新的乐观计划）与利用（为现有计划采样参数绑定）。
采用乐观规划策略，将固定对象重新绑定为自由参数，以探索更丰富的连续值组合。
将现成的 PDDL 规划器（如 FastDownward）作为子程序集成，并利用 PyBullet 在机器人仿真和真实执行中评估流。

实验结果

研究问题

RQ1如何有效结合符号化 PDDL 规划器与黑箱采样过程，以应对连续、高维的规划领域？
RQ2在高度约束或成本敏感的问题中，探索与利用的自适应平衡在多大程度上能提升规划效率？
RQ3一个领域无关、声明性的框架是否能够在不预先离散化连续变量的情况下，支持复杂的机器人操作任务？
RQ4在约束性规划问题中，所提出的 Adaptive 算法在成功率、解成本和运行时间方面与现有算法相比表现如何？
RQ5PDDLStream 是否能够在具有多样化动作和复杂约束的现实世界中，实现机器人任务与运动规划？

主要发现

在 Domain 1 中，Adaptive 算法在约束性问题上显著优于 Incremental、Focused 和 Binding 算法，随着积木数量从 3 增加到 5，成功率更高。
在 Domain 2 中，Adaptive 算法比 Focused 和 Binding 更快收敛到低成本解，其平均计划成本随时间下降更快，且 0.5 标准差置信区间表明性能一致。
在 Domain 3 中，该领域几何约束较少，所有算法（Focused、Binding、Adaptive）表现相似，且均优于 Incremental；Adaptive 仅因额外的流绑定计算导致运行时间略有增加。
在真实世界的机器人任务中，包括送餐、烹饪和操作任务，PDDLStream 使用 PR2 机器人成功生成了无碰撞、可执行的计划，视频展示了成功执行。
该框架通过将连续参数作为可通过流搜索的对象，实现了在具有无限多个动作实例的领域中的高效规划，避免了人工对位姿或构型进行预离散化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。