QUICK REVIEW

[論文レビュー] Anytime Planning for Decentralized POMDPs using Expectation Maximization

Akshat Kumar, Shlomo Zilberstein|arXiv (Cornell University)|Mar 15, 2012

Bayesian Modeling and Causal Inference参考文献 20被引用数 31

ひとこと要約

本稿では、動的ベイジアンネットワーク（DBN）の混合モデルにおける推論に政策最適化を再定式化することで、無限時間枠の分散型部分的可観測マルコフ決定過程（DEC-POMDP）に対する任意時計画アルゴリズムを提案する。期待値最大化（EM）アルゴリズムを用いて、連続的かつ要因分解された状態空間におけるスケーラブルで高効率な計画を可能にし、ベンチマークドメインにおいて最先端のソルバーより優れた実験的性能を示す。

ABSTRACT

Decentralized POMDPs provide an expressive framework for multi-agent sequential decision making. While fnite-horizon DECPOMDPs have enjoyed signifcant success, progress remains slow for the infnite-horizon case mainly due to the inherent complexity of optimizing stochastic controllers representing agent policies. We present a promising new class of algorithms for the infnite-horizon case, which recasts the optimization problem as inference in a mixture of DBNs. An attractive feature of this approach is the straightforward adoption of existing inference techniques in DBNs for solving DEC-POMDPs and supporting richer representations such as factored or continuous states and actions. We also derive the Expectation Maximization (EM) algorithm to optimize the joint policy represented as DBNs. Experiments on benchmark domains show that EM compares favorably against the state-of-the-art solvers.

研究の動機と目的

無限時間枠の分散型部分的可観測マルコフ決定過程（DEC-POMDP）における本質的複雑性に対処し、確率的コントローラーの最適化が計算的に非効率であることを解消する。
部分的可観測性と分散制御を有するマルチエージェントシステムにおけるスケーラブルで効率的な計画を可能にする。
計画フレームワーク内での要因分解された状態および連続的状態・行動のより豊かな表現をサポートする。
計算時間の増加に伴い、政策品質を段階的に向上させる任意時アルゴリズムの開発。
既存のDBN推論技術を活用する統一的フレームワークを提供すること。

提案手法

連携政策は動的ベイジアンネットワーク（DBN）の混合モデルとして表現され、DEC-POMDP最適化問題が確率的推論タスクに変換される。
期待値最大化（EM）アルゴリズムが、DBNベースの政策表現のパラメータを反復的に最適化するために導出される。
Eステップでは、現在の政策パラメータを用いて完全データの対数尤度の期待値が計算される。
Mステップでは、完全データの対数尤度の期待値を最大化するように政策パラメータが更新され、連携政策が改善される。
構造化されたDBNモデリングにより、要因分解されたおよび連続的状態／行動の表現が可能となる。
本手法は任意時であるため、計算時間の増加に伴い、政策品質の段階的改善が可能である。

実験結果

リサーチクエスチョン

RQ1無限時間枠のDEC-POMDP計画の複雑な問題は、DBNにおける確率的推論問題に再定式化可能か？
RQ2EMアルゴリズムは、DBNとして表現された分散政策に効果的に適応可能か？
RQ3提案手法のEMベースのアプローチは、標準ベンチマークドメインにおいて最先端のソルバーより優れた性能を発揮するか？
RQ4要因分解されたまたは連続的状態・行動空間を有する問題へのスケーラビリティはどの程度達成可能か？
RQ5アルゴリズムの任意時性は、時間の経過に伴い政策品質にどのように影響を与えるか？

主な発見

EMベースのアルゴリズムは、標準ベンチマークドメインにおけるDEC-POMDPの最先端ソルバーよりも競争的または優れた性能を発揮する。
本手法は、要因分解されたおよび連続的状態・行動空間を有する問題においてもスケーラブルで効果的であることが示された。
任意時性のおかげで、計算時間の増加に伴い、政策品質が段階的に向上する。
DBN推論への再定式化により、高度な推論技術の活用が可能となり、解の品質と効率性が向上した。
実験的結果から、EMベースのアプローチは、先行手法よりも高速かつ優れた性能で高品質な政策に収束することが示された。
本手法は、より豊かな表現に一般化でき、DEC-POMDPソルバーの適用範囲を離散的かつ小規模な問題にとどまらず拡張した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。