Skip to main content
QUICK REVIEW

[论文解读] Anytime Planning for Decentralized POMDPs using Expectation Maximization

Akshat Kumar, Shlomo Zilberstein|arXiv (Cornell University)|Mar 15, 2012
Bayesian Modeling and Causal Inference参考文献 20被引用 31
一句话总结

本文通过将策略优化重新表述为动态贝叶斯网络(DBN)混合模型中的推理问题,提出了一种用于无限时域去中心化部分可观察马尔可夫决策过程(DEC-POMDPs)的任意时间规划算法,利用期望最大化(EM)算法迭代改进联合策略。该方法实现了可扩展的、因子化的、连续状态的规划,在基准领域中表现出色,优于当前最先进的求解器。

ABSTRACT

Decentralized POMDPs provide an expressive framework for multi-agent sequential decision making. While fnite-horizon DECPOMDPs have enjoyed signifcant success, progress remains slow for the infnite-horizon case mainly due to the inherent complexity of optimizing stochastic controllers representing agent policies. We present a promising new class of algorithms for the infnite-horizon case, which recasts the optimization problem as inference in a mixture of DBNs. An attractive feature of this approach is the straightforward adoption of existing inference techniques in DBNs for solving DEC-POMDPs and supporting richer representations such as factored or continuous states and actions. We also derive the Expectation Maximization (EM) algorithm to optimize the joint policy represented as DBNs. Experiments on benchmark domains show that EM compares favorably against the state-of-the-art solvers.

研究动机与目标

  • 为解决无限时域去中心化部分可观察马尔可夫决策过程(DEC-POMDPs)的固有复杂性,其中优化随机控制器在计算上不可行。
  • 在具有部分可观测性和去中心化控制的多智能体系统中实现可扩展且高效的规划。
  • 在规划框架内支持更丰富的表示形式,如因子化和连续状态与动作。
  • 开发一种任意时间算法,随计算时间增加逐步提升策略质量。
  • 提供一个统一框架,利用现有的DBN推理技术求解DEC-POMDP。

提出的方法

  • 将联合策略表示为动态贝叶斯网络(DBN)的混合模型,将DEC-POMDP优化问题转化为概率推理任务。
  • 推导出期望最大化(EM)算法,以迭代方式优化基于DBN的策略表示参数。
  • E步使用当前策略参数计算完整数据对数似然的期望值。
  • M步通过最大化期望完整数据对数似然来更新策略参数,从而改进联合策略。
  • 通过结构化DBN建模支持因子化和连续状态/动作表示。
  • 该方法为任意时间算法,允许随着计算时间增加逐步提升策略质量。

实验结果

研究问题

  • RQ1能否将无限时域DEC-POMDP规划的复杂问题重新表述为DBN中的概率推理问题?
  • RQ2EM算法能否被有效适配以优化表示为DBN的去中心化策略?
  • RQ3所提出的基于EM的方法在标准基准DEC-POMDP领域中是否优于当前最先进的求解器?
  • RQ4该方法在因子化或连续状态与动作空间的问题中可扩展到何种程度?
  • RQ5该算法的任意时间特性如何随时间影响策略质量?

主要发现

  • 基于EM的算法在标准基准DEC-POMDP领域中,性能与当前最先进的求解器相当或更优。
  • 该方法在处理具有因子化和连续状态与动作空间的问题时表现出良好的可扩展性和有效性。
  • 算法的任意时间特性使得策略质量可随计算时间增加而逐步提升。
  • 重新表述为DBN推理使高级推理技术得以应用,从而提升解的质量和效率。
  • 实验结果表明,基于EM的方法比先前方法收敛到高质量策略更快,且性能更优。
  • 该方法成功推广至更丰富的表示形式,将DEC-POMDP求解器的应用范围从离散、小规模问题扩展至更广泛场景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。