QUICK REVIEW

[論文レビュー] Global Convergence of Multi-Agent Policy Gradient in Markov Potential Games

Stefanos Leonardos, Will Overman|arXiv (Cornell University)|Jun 3, 2021

Reinforcement Learning in Robotics参考文献 35被引用数 24

ひとこと要約

本稿は、状態に依存するポテンシャル関数を介してエージェントの利得が整合される、マルコフポテンシャルゲーム（MPG）と呼ばれる新しいクラスのマルチエージェントマルコフ決定過程を導入する。独立した方策勾配降下法が、決定的方策勾配では $\tilde{O}(1/\epsilon^2)$ 回の反復、確率的方策勾配では $\tilde{O}(1/\epsilon^6)$ 回の反復で、$\tilde{O}(\epsilon)$-ナッシュ方策へのグローバル収束を示している。

ABSTRACT

Potential games are arguably one of the most important and widely studied classes of normal form games. They define the archetypal setting of multi-agent coordination as all agent utilities are perfectly aligned with each other via a common potential function. Can this intuitive framework be transplanted in the setting of Markov Games? What are the similarities and differences between multi-agent coordination with and without state dependence? We present a novel definition of Markov Potential Games (MPG) that generalizes prior attempts at capturing complex stateful multi-agent coordination. Counter-intuitively, insights from normal-form potential games do not carry over as MPGs can consist of settings where state-games can be zero-sum games. In the opposite direction, Markov games where every state-game is a potential game are not necessarily MPGs. Nevertheless, MPGs showcase standard desirable properties such as the existence of deterministic Nash policies. In our main technical result, we prove fast convergence of independent policy gradient to Nash policies by adapting recent gradient dominance property arguments developed for single agent MDPs to multi-agent learning settings.

研究の動機と目的

状態に依存するポテンシャル関数を用いた、正規形ポテンシャルゲームの一般化を、マルコフゲームに形式化すること。
協調的状況下におけるマルチエージェント方策勾配の理論的収束保証の欠如に対処すること。
マルコフポテンシャルゲームにおいてナッシュ方策が存在し、かつ決定的に達成可能であることを確立すること。
決定的および確率的設定の両方において、独立的方策勾配が近似ナッシュ方策へ多項式時間で収束することを証明すること。

提案手法

エージェントの利得の変化がポテンシャル関数 $\Phi$ の変化と一致するように、状態に依存するポテンシャル関数 $\Phi$ を用いてマルコフポテンシャルゲーム（MPG）を定義する。
単エージェントMDPから得られる勾配優位性の性質を、マルチエージェント設定へと適応し、方策勾配の収束を分析する。
決定的方策勾配には直接的パラメータ化を、確率的方策勾配にはグリーディパラメータ化を用いる。
エージェント間で同時に更新を行うことで、独立学習ダイナミクスをモデル化する。
将来の方向として、単エージェント強化学習の技術（エントロピー正則化や自然方策勾配の拡張）を応用する。
ポテンシャル関数の整合性を用いて、決定的ナッシュ方策の存在といった構造的性質を証明する。

実験結果

リサーチクエスチョン

RQ1協調的マルチエージェントの協調行動は、ポテンシャル関数を用いて一般化された正規形ポテンシャルゲームの枠組みで形式化可能か？
RQ2正規形ポテンシャルゲームに共通する性質（例：決定的ナッシュ均衡の存在）は、マルコフポテンシャルゲームへと拡張可能か？
RQ3独立的方策勾配は、MPGにおいてナッシュ方策へグローバルに収束するか？収束速度はいかほどか？
RQ4有限サンプル設定や確率的勾配は、正確な勾配と比較してMPGにおける収束にどのように影響するか？

主な発見

マルコフポテンシャルゲーム（MPG）は、状態に依存するポテンシャル関数を用いて、状態を持つマルチエージェントマルコフ決定過程へ正規形ポテンシャルゲームを一般化する。
すべてのMPGは、少なくとも1つの決定的ナッシュ方策プロファイルを有し、純粋戦略の均衡の存在を保証する。
正確な勾配のもとでは、独立的方策勾配は $\mathcal{O}(1/\epsilon^2)$ 回の反復で $\tilde{O}(\epsilon)$-ナッシュ方策へ収束する。
グリーディパラメータ化を用いた確率的方策勾配では、$\mathcal{O}(1/\epsilon^6)$ 回の反復で $\tilde{O}(\epsilon)$-ナッシュ方策へ収束する。
収束速度は逆近似誤差の多項式関数として得られ、協調的マルチエージェント強化学習に対する強い理論的保証を確立する。
予想に反し、MPGはゼロサム状態ゲームを含むことができ、すべてのポテンシャルゲーム的状態を持つマルコフゲームがMPGであるとは限らない。これは構造的複雑性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。