[论文解读] Olisipo: A Probabilistic Approach to the Adaptable Execution of Deterministic Temporal Plans
本文提出 Olisipo,一种概率框架,可将确定性的全序计划转换为可适应的偏序计划,以实现对意外世界变化的在线动作重排序与跳过。通过动态计算具有相关成功概率的有效全序排列集合,系统选择能最大化目标达成可能性的动作,从而减少重规划和模拟中执行的动作数量,尤其在时间约束和动态环境中表现更优。
In order to ensure the robust actuation of a plan, execution must be adaptable to unexpected situations in the world and to exogenous events. This is critical in domains in which committing to a wrong ordering of actions can cause the plan failure, even when all the actions succeed. We propose an approach to the execution of a task plan that permits some adaptability to unexpected observations of the state while maintaining the validity of the plan through online reasoning. Our approach computes an adaptable, partially-ordered plan from a given totally-ordered plan. The partially-ordered plan is adaptable in that it can exploit beneficial differences between the world and what was expected. The approach is general in that it can be used with any task planner that produces either a totally or a partially-ordered plan. We propose a plan execution algorithm that computes online the complete set of valid totally-ordered plans described by an adaptable partially-ordered plan together with the probability of success for each of them. This set is then used to choose the next action to execute.
研究动机与目标
- 解决现实世界观测偏离规划假设时的鲁棒任务计划执行挑战。
- 通过支持在线适应动作持续时间、先决条件或外部事件的意外变化,减少对昂贵重规划的依赖。
- 通过概率在线推理,在违反原始因果约束时仍保持计划有效性与目标达成能力。
- 开发一种快速、实用的动作选择策略,支持在线运行并适应实时观测。
提出的方法
- 通过放松因果约束以提升运行时灵活性,将初始全序计划转换为可适应的偏序计划。
- 在线计算由可适应偏序诱导出的所有有效全序计划的完整集合。
- 基于规划变量(如动作持续时间、状态变化)的估计概率,为每个有效全序分配成功概率。
- 采用一种新颖的动作选择策略,基于最大化整体目标达成概率来选择下一步执行的动作。
- 将该方法集成到 ROSPlan 框架中,实现在模拟机器人环境中端到端的执行。
- 仅在不存在有效全序时触发动态重规划,从而最小化重规划开销。
实验结果
研究问题
- RQ1从确定性计划导出的偏序计划是否能在无需完整重规划的情况下,有效适应意外观测?
- RQ2如何在线计算可适应偏序计划的所有有效全序排列及其相关成功概率?
- RQ3在不确定性下执行过程中,何种动作选择策略能最大化目标达成概率?
- RQ4在动态、时间受限环境中,与传统重规划相比,所提方法在重规划次数和执行动作数方面表现如何?
主要发现
- 在无截止时间的任务中,重排序方法(RO)实现了 98% 的覆盖率,平均仅需 0.9 次重规划,而重规划基线(RP)为 1.6 次。
- 在有截止时间的任务中,RO 实现了 91% 的覆盖率,平均重规划 0.7 次,而 RP 实现了 97% 的覆盖率,平均重规划 2.9 次,表明在显著减少重规划的同时仅造成轻微的覆盖率损失。
- RO 在无截止时间任务中平均执行 12.5 个动作,而 RP 为 13.7 个,表明整体执行动作更少。
- 该算法扩展性良好,即使在包含最多 128 个节点的计划中,也能在 10 秒内完成所有有效顺序的生成。
- 该系统在存在死胡同或计算资源有限的领域中表现出可行性,其中重规划不可行。
- 该方法显著减少了重规划事件次数和总执行动作数,尤其在时间受限和动态环境中效果更明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。