[论文解读] The Complexity of Decentralized Control of Markov Decision Processes
本文研究部分可观察性下的马尔可夫决策过程(MDPs)中的去中心化控制,提出多智能体在不确定性下的广义模型。证明即使在这些模型中的有限时域问题也是NEXP-完全的,表明去中心化规划在理论上需要双重指数时间,且无法通过标准技术高效地约化为集中式解决方案。
Planning for distributed agents with partial state information is considered from a decision- theoretic perspective. We describe generalizations of both the MDP and POMDP models that allow for decentralized control. For even a small number of agents, the finite-horizon problems corresponding to both of our models are complete for nondeterministic exponential time. These complexity results illustrate a fundamental difference between centralized and decentralized control of Markov processes. In contrast to the MDP and POMDP problems, the problems we consider provably do not admit polynomial-time algorithms and most likely require doubly exponential time to solve in the worst case. We have thus provided mathematical evidence corresponding to the intuition that decentralized planning problems cannot easily be reduced to centralized problems and solved exactly using established techniques.
研究动机与目标
- 为多个智能体在部分状态信息下的马尔可夫决策过程的去中心化控制进行形式化。
- 识别去中心化设置中有限时域规划的计算复杂性。
- 对比去中心化控制与集中式MDP及POMDP的复杂性。
- 提供理论证据,表明去中心化规划无法通过集中式方法高效约化。
提出的方法
- 提出一种广义MDP模型,允许多个智能体在部分可观察性下实现去中心化控制。
- 引入去中心化部分可观察MDP(Dec-POMDP)的形式化框架,作为标准POMDP的扩展。
- 使用复杂性理论分析,对本模型中有限时域问题的计算难度进行分类。
- 应用计算复杂性理论中的结果,特别是NEXP类,以建立完备性结果。
- 分析在不确定性下,智能体基于局部观测独立行动的决策问题。
- 证明除非P = NEXP,否则不存在多项式时间算法可解决这些问题。
实验结果
研究问题
- RQ1在部分可观察性的去中心化MDP中,有限时域规划的计算复杂性是什么?
- RQ2去中心化控制的复杂性与集中式MDP及POMDP相比如何?
- RQ3能否使用现有技术将去中心化规划问题约化为集中式问题?
- RQ4求解不确定性下去中心化决策的算法效率是否存在固有极限?
- RQ5去中心化控制的结构是否本质上需要超过指数时间才能求解?
主要发现
- 所提出的去中心化MDP模型中的有限时域问题在非确定性指数时间(NEXP)下是完备的。
- 去中心化控制的复杂性从根本上高于集中式MDP(属于P)和POMDP(属于PSPACE)。
- 结果表明,除非P = NEXP,否则不存在多项式时间算法可解决这些问题,而这一假设被认为极不可能。
- 本文提供了数学证据,表明无法通过标准技术将去中心化规划高效约化为集中式规划。
- 研究结果证实了直觉:在不确定性下去中心化决策比集中式方法本质上更复杂且难以求解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。