QUICK REVIEW

[論文レビュー] Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games

Ahmed Said Donmez, Yuksel Arslantas|arXiv (Cornell University)|Jan 31, 2026

Adaptive Dynamic Programming Control被引用数 0

ひとこと要約

ペイオフベースの分散型三スケールActor-Dual-Critic学習フレームワークを提案。確率的ゲームにおいて、二エージェントゼロ和および多エージェント同一関心設定で近似均衡へ収束を保証する。

ABSTRACT

We propose a novel independent and payoff-based learning framework for stochastic games that is model-free, game-agnostic, and gradient-free. The learning dynamics follow a best-response-type actor-critic architecture, where agents update their strategies (actors) using feedback from two distinct critics: a fast critic that intuitively responds to observed payoffs under limited information, and a slow critic that deliberatively approximates the solution to the underlying dynamic programming problem. Crucially, the learning process relies on non-equilibrium adaptation through smoothed best responses to observed payoffs. We establish convergence to (approximate) equilibria in two-agent zero-sum and multi-agent identical-interest stochastic games over an infinite horizon. This provides one of the first payoff-based and fully decentralized learning algorithms with theoretical guarantees in both settings. Empirical results further validate the robustness and effectiveness of the proposed approach across both classes of games.

研究の動機と目的

最小情報でゲームに依存しないモデルフリー学習フレームワークを確率的ゲームに対して開発する。
独立した、ペイオフベースの三-timescaleのActor-Dual-Criticアーキテクチャを導入する。
二エージェントゼロ和および多エージェント同一関心ゲームにおけるNash均衡へ近似する収束保証を確立する。
探索と非均衡適応下での安定性を確保する分析を提供する。
実証的結果を通じて両方のゲームクラスに対するロバスト性を検証する。

提案手法

高速クリティックを導入し、観測報酬を用いて局所的なq関数を迅速に推定し、遅いクリティックは固定点更新を通じて動的計画法の値を近似する。
Actorは高速クリティックに対してεベスト応答更新を行い、勾配フリーな戦略更新を可能にする。
ε-グリーディ機構による探索をモデル化し、それを対応する報酬/遷移調整を伴う実効的な確率的ゲームに組み込む。
三 Timescaleの確率近似を用い、学習率を減衰させつつ高速Q学習、方策更新、遅い値推定を分離する。
独立したペイオフベースの動作の下で二エージェントゼロ和および多エージェント同一関心確率的ゲームに対して近似均衡への収束を証明する。
アルゴリズムの詳細と近似単調性技法への理論的接続を提供する。

実験結果

リサーチクエスチョン

RQ1独立したエージェントが、ペイオフフィードバックと非均衡適応のみを用いて、主要な確率的ゲームクラスで均衡へ収束できるか。
RQ2ペイオフベースで勾配自由なActor-Dual-Criticダイナミクスは、二エージェントゼロ和および多エージェント同一関心確率的ゲームにおいて近似Nash均衡への収束を保証するか。
RQ3高速クリティックと遅いクリティック、εベスト応答Actorが、戦略の変化による非定常性をどのように扱うか。
RQ4提案フレームワークにおける探索の収束と均衡近似への影響は何か。

主な発見

提案されたActor-Dual-Criticダイナミクスは、二エージェントゼロ和確率的ゲームにおいて近似Nash均衡へ収束する。
同じフレームワークは、非一意の値と収束性の欠如にもかかわらず、多エージェント同一関心確率的ゲームにおいて近似均衡へ収束する。
探索が εベースの境界によって平衡を可控にシフトする形で、完全に独立したペイオフベース更新の下で収束保証が成立する。
三-timescale更新（高速クリティック、Actor、遅いクリティック）はサブ問題の準定常性を確保し、収束解析を支援する。
実効的な確率的ゲームの定式化は、探索を報酬および遷移カーネルの一部として扱えることを示し、均衡推論を保持する。
実証的結果は、ゼロ和および同一関心の両方のゲームクラスにおけるロバスト性と有効性を検証する。

(b) Identical-interest stochastic games.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。