QUICK REVIEW

[論文レビュー] The Complexity of Decentralized Control of Markov Decision Processes

Daniel S. Bernstein, Shlomo Zilberstein|arXiv (Cornell University)|Jan 16, 2013

Optimization and Search Problems参考文献 34被引用数 237

ひとこと要約

この論文は、部分的観測可能性を伴うマルコフ決定過程（MDPs）における分散型制御を調査し、不確実性下でのマルチエージェント計画のための一般化モデルを導入する。本研究では、これらのモデルにおける有限ホライズン問題ですらNEXP完全であることを証明し、分散型計画が本質的に二重指数的時間が必要であり、標準的手法を用いて集中型解に効率的に還元できないことを示している。

ABSTRACT

Planning for distributed agents with partial state information is considered from a decision- theoretic perspective. We describe generalizations of both the MDP and POMDP models that allow for decentralized control. For even a small number of agents, the finite-horizon problems corresponding to both of our models are complete for nondeterministic exponential time. These complexity results illustrate a fundamental difference between centralized and decentralized control of Markov processes. In contrast to the MDP and POMDP problems, the problems we consider provably do not admit polynomial-time algorithms and most likely require doubly exponential time to solve in the worst case. We have thus provided mathematical evidence corresponding to the intuition that decentralized planning problems cannot easily be reduced to centralized problems and solved exactly using established techniques.

研究の動機と目的

複数エージェントにおける部分状態情報下でのマルコフ決定過程の分散型制御を形式化すること。
分散型設定における有限ホライズン計画の計算複雑性を同定すること。
分散型制御と集中型MDPおよびPOMDPの複雑性を対比すること。
分散型計画が集中型アプローチに効率的に還元できない理論的証拠を提供すること。

提案手法

複数エージェントにわたり部分的観測可能性を伴う分散型制御を許容する一般化MDPモデルを提案する。
標準POMDPの拡張として、分散型部分的観測可能MDP（Dec-POMDP）の形式的枠組みを導入する。
有限ホライズン問題の計算ハードネスを分類するために、複雑性理論的分析を用いる。
特にNEXPクラスを用いて、完全性結果を確立するために計算複雑性理論の結果を適用する。
エージェントが局所的観測に基づいて独立して行動する不確実性下の意思決定問題を分析する。
P = NEXPでない限り、これらの問題を解く多項式時間のアルゴリズムは存在しないことを示す。

実験結果

リサーチクエスチョン

RQ1部分的観測可能性を伴う分散型MDPにおける有限ホライズン計画の計算複雑性は何か？
RQ2分散型制御の複雑性は、集中型MDPおよびPOMDPのそれと比べてどう異なるか？
RQ3既存の技術を用いて分散型計画問題を集中型問題に還元できるか？
RQ4不確実性下での分散型意思決定を解くアルゴリズムの効率に、本質的な限界はあるか？
RQ5分散型制御の構造自体が、指数的時間を超えてより長い時間を要するのか？

主な発見

提案された分散型MDPモデルにおける有限ホライズン問題は、非決定的指数時間（NEXP）完全である。
分散型制御の複雑性は、それぞれPおよびPSPACEに属する集中型MDPおよびPOMDPよりも本質的に高い。
P = NEXPでない限り、これらの問題を解く多項式時間のアルゴリズムは存在しないという結果は、極めて不確かであると見なされる。
本研究は、標準的手法を用いて分散型計画を集中型計画に効率的に還元できない数学的証拠を提供する。
研究結果は、不確実性下での分散型意思決定が集中型のそれよりも本質的に複雑かつ困難であるという直感を確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。