[論文レビュー] Actor-Critic Provably Finds Nash Equilibria of Linear-Quadratic Mean-Field Games
本稿では、離散時間線形二次平均場ゲームに対する、モデルフリーの平均場アクタ・クリティック手法を提案し、システムの動的特性を事前に知らなくてもナッシュ均衡への線形収束を保証する。本研究は、この設定において、このような手法に対する非漸近的グローバル収束保証を初めて確立した。
We study discrete-time mean-field Markov games with infinite numbers of agents where each agent aims to minimize its ergodic cost. We consider the setting where the agents have identical linear state transitions and quadratic cost functions, while the aggregated effect of the agents is captured by the population mean of their states, namely, the mean-field state. For such a game, based on the Nash certainty equivalence principle, we provide sufficient conditions for the existence and uniqueness of its Nash equilibrium. Moreover, to find the Nash equilibrium, we propose a mean-field actor-critic algorithm with linear function approximation, which does not require knowing the model of dynamics. Specifically, at each iteration of our algorithm, we use the single-agent actor-critic algorithm to approximately obtain the optimal policy of the each agent given the current mean-field state, and then update the mean-field state. In particular, we prove that our algorithm converges to the Nash equilibrium at a linear rate. To the best of our knowledge, this is the first success of applying model-free reinforcement learning with function approximation to discrete-time mean-field Markov games with provable non-asymptotic global convergence guarantees.
研究の動機と目的
- 離散時間平均場マルコフゲームにおける線形二次構造を有するナッシュ均衡の存在および一意性を満たす十分条件を確立すること。
- システムの動的特性を事前に知らない状態で、ナッシュ均衡を探索するモデルフリーの強化学習アルゴリズムを開発すること。
- 提案されたアルゴリズムがナッシュ均衡へ線形レートで非漸近的グローバル収束することを証明すること。
- 関数近似を用いて、収束保証が付与された平均場ゲームへのアクタ・クリティック手法の拡張を実現すること。
提案手法
- アルゴリズムは、現在の平均場状態を前提として、各エージェントの最適方策を計算するために単一エージェントのアクタ・クリティック更新を適用する。
- 方策改善のためのアクタ・クリティック更新と、現在の方策に基づく平均場状態の更新を繰り返し交互に実行する。
- スケーラブルな学習を可能にするために、価値関数および方策の表現に線形関数近似を用いる。
- エージェントレベルの制御と集団レベルのダイナミクスを分離するために、ナッシュ確率等価原理に依拠する。
- 線形二次ダイナミクスと二次コスト関数の構造を活用して、線形収束レートを導出する収束解析を実施する。
- 環境へのサンプルアクセスのみを必要とし、遷移確率やコスト関数の明示的知識を必要としないモデルフリー設定で動作する。
実験結果
リサーチクエスチョン
- RQ1線形二次平均場ゲームにおいて、ナッシュ均衡が存在し、一意性を保つのはどのような条件下か?
- RQ2関数近似を用いたモデルフリーのアクタ・クリティックアルゴリズムは、このようなゲームにおいてグローバルにナッシュ均衡へ収束可能か?
- RQ3離散時間線形二次平均場ゲームにおける平均場アクタ・クリティックアルゴリズムが達成できる収束レートは何か?
- RQ4システムモデルを知らない状態でも、平均場マルコフゲームにおいて非漸近的収束保証を達成することは可能か?
主な発見
- 本稿では、線形二次平均場ゲームにおけるナッシュ均衡の存在および一意性を満たす十分条件を確立した。
- 提案された平均場アクタ・クリティックアルゴリズムは、ナッシュ均衡へ線形レートで収束する。
- アルゴリズムはモデルフリーに動作し、システムの動的特性を一切必要としない。
- 線形関数近似を用いて、非漸近的グローバル収束を達成した。
- 本研究は、離散時間平均場マルコフゲームにおけるモデルフリー強化学習に対して、非漸近的収束を保証する初の研究である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。