[論文レビュー] Teaching an Old Dynamics New Tricks: Regularization-free Last-iterate Convergence in Zero-sum Games via BNN Dynamics
要約: 論文は Brown-von Neumann-Nash (BNN) ダイナミクスを再用途化し正則化なしでゼロ和ゲームの最終反復収束を達成、反事実重み付けを用いて拡張-formゲームへ拡張し、ニューラルアクター-クリティック実装(BNNAC)を用いて正則化手法より empirical superior を示す。
Zero-sum games are a fundamental setting for adversarial training and decision-making in multi-agent learning (MAL). Existing methods often ensure convergence to (approximate) Nash equilibria by introducing a form of regularization. Yet, regularization requires additional hyperparameters, which must be carefully tuned--a challenging task when the payoff structure is known, and considerably harder when the structure is unknown or subject to change. Motivated by this problem, we repurpose a classical model in evolutionary game theory, i.e., the Brown-von Neumann-Nash (BNN) dynamics, by leveraging the intrinsic convergence of this dynamics in zero-sum games without regularization, and provide last-iterate convergence guarantees in noisy normal-form games (NFGs). Importantly, to make this approach more applicable, we develop a novel framework with theoretical guarantees that integrates the BNN dynamics in extensive-form games (EFGs) through counterfactual weighting. Furthermore, we implement an algorithm that instantiates our framework with neural function approximation, enabling scalable learning in both NFGs and EFGs. Empirical results show that our method quickly adapts to nonstationarities, outperforming the state-of-the-art regularization-based approach.
研究の動機と目的
- ノイズのあるフィードバックを伴うゼロ和ゲームで正則化なしの最終反復収束の必要性を動機づける。
- 正則化なしの収束を正規形および拡張-formゲームで保証する BN N-based MAL フレームワークを導入する。
- 実践へフレームワークを実装するスケーラブルなニューラルアクター–クリティックアルゴリズム(BNNAC)を開発する。
- 非定常設定における正則化ベース手法より実証的な利点を示す。
提案手法
- 正則化なしの収束を保証するために Brown-von Neumann-Nash (BNN) ダイナミクスを採用する。
- 無偏差ノイズと有界分散を持つノイズ付き payoff フィードバックを確率的近似の枠組みでモデル化する。
- 反事実更新と到達重み付けを用いてBNNダイナミクスを拡張-formゲームへ拡張する。
- population-level BN N ダイナミクスを近似するニューラルアクター–クリティックアーキテクチャを開発する。
- 対戦相手の到達確率を推定する別個の到達ネットワークを組み込み、更新規則に統合する。
- ノイズ床と収束速度解析を含む正規形および拡張-form設定でのドリフトと収束特性を証明する。

実験結果
リサーチクエスチョン
- RQ1ノイズ付きのフィードバックを伴う二人零和ゲームでBNNダイナミクスは正則化なしで最終反復収束を提供できるか。
- RQ2BNNダイナミクスを拡張-formゲームへ拡張し、収束保証を保つにはどうすればよいか。
- RQ3ニューラルアクター–クリティック実装は大規模なNFGsとEFGsでBNNダイナミクスを近似できるか。
- RQ4非定常な報酬下で正則化ベース手法と比較してBNNベース手法はどのように性能するか。
- RQ5確率的フィードバック下での理論的収束速度とノイズ床特性はどのようになるか。
主な発見
- BNNダイナミクスは正規形ゼロ和ゲームで正則化を必要とせず最終反復収束をもたらす。
- 反事実重み付けを用いることで拡張-formゲームへ拡張しても収束保証を保持する。
- BNNACアルゴリズムはニューラル関数近似を用いて理論予測と一致し、大規模ゲームへスケールする。
- 実証結果は非定常下で正則化付き RD 手法より適応が速く収束が安定することを示す。
- 収束は O(σ) のノイズ床と O(σ^2) のセントロイドシフトを示し、ノイズレスおよびノイズ付き設定で t^{-2/3} の減衰を示す。
- 本アプローチは正則化ベース手法のハイパーパラメータ調整負担を回避しつつ頑健である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。