Skip to main content
QUICK REVIEW

[论文解读] Decision-Theoretic Planning with Concurrent Temporally Extended Actions

Khashayar Rohanimanesh, Sridhar Mahadevan|arXiv (Cornell University)|Jan 10, 2013
Reinforcement Learning in Robotics参考文献 7被引用 35
一句话总结

本文提出了一种决策理论规划框架,可在因子化马尔可夫决策过程(factored Markov decision processes)中实现时序扩展动作(options)的并发执行。通过在马尔可夫选项约束下将并发选项建模为半马尔可夫决策过程(SMDP),该方法可利用SMDP算法实现高效的值函数计算,在导航任务中相比顺序选项执行展现出更快的规划速度。

ABSTRACT

We investigate a model for planning under uncertainty with temporallyextended actions, where multiple actions can be taken concurrently at each decision epoch. Our model is based on the options framework, and combines it with factored state space models,where the set of options can be partitioned into classes that affectdisjoint state variables. We show that the set of decisionepochs for concurrent options defines a semi-Markov decisionprocess, if the underlying temporally extended actions being parallelized arerestricted to Markov options. This property allows us to use SMDPalgorithms for computing the value function over concurrentoptions. The concurrent options model allows overlapping execution ofoptions in order to achieve higher performance or in order to performa complex task. We describe a simple experiment using a navigationtask which illustrates how concurrent options results in a faster planwhen compared to the case when only one option is taken at a time.

研究动机与目标

  • 解决在存在多个重叠时序扩展动作时的不确定性规划挑战。
  • 实现选项的并发执行,以提升规划效率和性能。
  • 在马尔可夫选项约束下,将并发选项形式化为半马尔可夫决策过程(SMDP)。
  • 利用现有SMDP算法在复杂、因子化状态空间中进行值函数计算。
  • 在导航任务中展示并发性的实证优势。

提出的方法

  • 该框架扩展了选项框架,允许在每个决策时刻并行执行多个选项。
  • 它将状态空间建模为因子化形式,将选项划分为影响互不相交状态变量的类别。
  • 当选项为马尔可夫性时,正式证明了并发选项的决策时刻集合构成一个半马尔可夫决策过程(SMDP)。
  • 使用标准SMDP算法进行值函数计算,从而实现高效规划。
  • 该方法支持选项的重叠执行,以实现复杂任务或提升性能。
  • 以导航任务作为案例研究,评估并发选项执行的效果。

实验结果

研究问题

  • RQ1时序扩展动作能否在决策理论规划框架中有效实现并行执行?
  • RQ2在何种条件下,选项的并发执行会形成半马尔可夫决策过程(SMDP)?
  • RQ3与顺序执行相比,并发选项执行如何提升规划性能?
  • RQ4因子化状态空间模型能否与并发选项有效结合,实现可扩展规划?
  • RQ5在导航任务中,选项并发对收敛速度和解质量有何影响?

主要发现

  • 当选项为马尔可夫性时,并发选项模型构成一个有效的半马尔可夫决策过程(SMDP),从而可使用SMDP算法。
  • 在导航任务中,并发执行选项相比顺序执行能实现更快的计划生成。
  • 该框架通过利用现有的SMDP求解器,实现了高效的值函数计算。
  • 将选项划分为影响互不相交状态变量的类别,可实现可扩展且模块化的规划。
  • 实证结果证实,并发性可减少规划时间并提升复杂任务中的性能。
  • 该方法在保持理论严谨性的同时,实现了在因子化MDP中的实用、高性能规划。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。