QUICK REVIEW

[論文レビュー] Fast Planning in Stochastic Games

Michael Kearns, Yishay Mansour|arXiv (Cornell University)|Jan 16, 2013

Game Theory and Applications参考文献 6被引用数 36

ひとこと要約

この論文は、一般和の確率的ゲームにおける近似ナッシュ均衡を計算する高速な計画アルゴリズムを提示する。有限ホライズンの価値反復をマルチエージェント設定に一般化し、スパースサンプリング技術を大規模または無限の状態空間に適応する。また、一般和の確率的ゲームでは無限ホライズン割引価値反復が一般に収束しないことを証明している。これは、ゼロサムの場合とは異なり、一般和の場合は成立しない。

ABSTRACT

Stochastic games generalize Markov decision processes (MDPs) to a multiagent setting by allowing the state transitions to depend jointly on all player actions, and having rewards determined by multiplayer matrix games at each state. We consider the problem of computing Nash equilibria in stochastic games, the analogue of planning in MDPs. We begin by providing a generalization of finite-horizon value iteration that computes a Nash strategy for each player in generalsum stochastic games. The algorithm takes an arbitrary Nash selection function as input, which allows the translation of local choices between multiple Nash equilibria into the selection of a single global Nash equilibrium. Our main technical result is an algorithm for computing near-Nash equilibria in large or infinite state spaces. This algorithm builds on our finite-horizon value iteration algorithm, and adapts the sparse sampling methods of Kearns, Mansour and Ng (1999) to stochastic games. We conclude by descrbing a counterexample showing that infinite-horizon discounted value iteration, which was shown by shaplely to converge in the zero-sum case (a result we give extend slightly here), does not converge in the general-sum case.

研究の動機と目的

マルチエージェント設定へのMDPベースの価値反復の拡張により、確率的ゲームにおけるナッシュ均衡を効率的に計算する計画アルゴリズムを開発すること。
確率的ゲームに適応されたスパースサンプリング手法を用いて、大規模または無限の状態空間におけるスケーラブルな計画を可能にすること。
複数の局所的均衡が存在する場合に、一意のグローバルナッシュ均衡を選択するための汎用的な選択関数により、その課題を解決すること。
一般和の確率的ゲームにおける無限ホライズン割引価値反復の収束特性を分析すること。
確率的ゲームにおける高速でスケーラブルな均衡計算の理論的およびアルゴリズム的基盤を提供すること。

提案手法

共同プレイヤー行動とマルチプレイヤー行列ゲーム報酬を組み込むことで、有限ホライズン価値反復を確率的ゲームに一般化する。
複数のナッシュ均衡が存在する場合に一意のグローバル均衡を選択できるように、ナッシュ選択関数を導入する。
Kearnsら（1999）のスパースサンプリング手法を確率的ゲームに適応し、大規模な状態空間における効率的な計画を可能にする。
各プレイヤーの価値関数を保持し、共同行動の結果に基づいて更新する価値反復フレームワークを採用する。
将来の状態における期待値を推定するためのサンプリングベースの近似を用いることで、計算複雑性を低減する。
ゼロサム確率的ゲームにおけるShapleyの収束結果を一般和設定に拡張し、一般和ではその結果が成立しないことを示す。

実験結果

リサーチクエスチョン

RQ1有限ホライズン価値反復を、一般和の確率的ゲームにおけるナッシュ均衡を計算するために一般化できるか？
RQ2スパースサンプリングをどのように適応すれば、確率的ゲームの大規模または無限の状態空間における高速計画が可能になるか？
RQ3一般和の確率的ゲームにおいて、無限ホライズン割引価値反復は保証的に収束するか？
RQ4複数の均衡が存在する場合に、一意のグローバルナッシュ均衡を選択するためのメカニズムは何か？
RQ5ゼロサムと一般和の確率的ゲームにおける価値反復の収束特性にはどのような違いがあるか？

主な発見

提案された有限ホライズン価値反復アルゴリズムは、ナッシュ選択関数を用いることで、一般和の確率的ゲームにおいてナッシュ均衡を効果的に計算できる。
スパースサンプリングの適応により、大規模または無限の状態空間における近似ナッシュ均衡の効率的計算が可能になった。
アルゴリズムは、複雑なマルチエージェント環境における計画においてスケーラブルで実用的であることが示された。
反例を提示することで、一般和の確率的ゲームでは無限ホライズン割引価値反復が収束しないことが示された。これはゼロサムの場合とは対照的である。
本論文は、ゼロサム確率的ゲームにおけるShapleyの収束結果を一般化し、その有効性を当該設定で確認した。
選択関数により、局所的均衡の選択を一貫したグローバル均衡に翻訳するフレームワークを提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。