Skip to main content
QUICK REVIEW

[论文解读] Teaching an Old Dynamics New Tricks: Regularization-free Last-iterate Convergence in Zero-sum Games via BNN Dynamics

Tuo Zhang, Leonardo Stella|arXiv (Cornell University)|Feb 9, 2026
Stochastic Gradient Optimization Techniques被引用 0
一句话总结

该论文将 Brown-von Neumann-Nash (BNN) 动力学重新用于在无正则化的零和博弈中实现末次迭代收敛,并通过反事实加权将其扩展到广义形博弈,同时展示在神经演员-评论家实现(BNNAC)中相对于正则化方法的经验优势。

ABSTRACT

Zero-sum games are a fundamental setting for adversarial training and decision-making in multi-agent learning (MAL). Existing methods often ensure convergence to (approximate) Nash equilibria by introducing a form of regularization. Yet, regularization requires additional hyperparameters, which must be carefully tuned--a challenging task when the payoff structure is known, and considerably harder when the structure is unknown or subject to change. Motivated by this problem, we repurpose a classical model in evolutionary game theory, i.e., the Brown-von Neumann-Nash (BNN) dynamics, by leveraging the intrinsic convergence of this dynamics in zero-sum games without regularization, and provide last-iterate convergence guarantees in noisy normal-form games (NFGs). Importantly, to make this approach more applicable, we develop a novel framework with theoretical guarantees that integrates the BNN dynamics in extensive-form games (EFGs) through counterfactual weighting. Furthermore, we implement an algorithm that instantiates our framework with neural function approximation, enabling scalable learning in both NFGs and EFGs. Empirical results show that our method quickly adapts to nonstationarities, outperforming the state-of-the-art regularization-based approach.

研究动机与目标

  • 在带有噪声反馈的零和博弈中,说明无需正则化即可实现末次迭代收敛的必要性。
  • 引入基于 BNN 的 MAL 框架,确保在常规形式和广义形博弈中的无正则化收敛。
  • 开发可扩展的神经演员–评论家算法(BNNAC),以在实践中实现该框架。
  • 在动态、非平稳设置下,展示相较于基于正则化的方法的经验优势。

提出的方法

  • 采用 Brown-von Neumann-Nash (BNN) 动力学以确保在无正则化的情况下收敛。
  • 在随机近似框架中,将带有偏差的噪声和有界方差的嘈杂收益反馈建模。
  • 使用对照事实、到达权重更新将 BN N 动力学扩展到广义形博弈。
  • 开发一个神经演员–评论家结构,近似群体层面的 BNN 动力学(BNNAC)。
  • 加入一个单独的到达网络,用于估计对手的到达概率并整合到更新规则中。
  • 在常规形式和广义形博弈中证明漂移与收敛性质,包括噪声底和收敛速率分析。
(a) NashConv metric in the nonstationary RPS.
(a) NashConv metric in the nonstationary RPS.

实验结果

研究问题

  • RQ1在带有噪声反馈的两人零和博弈中,BNN 动力学是否可以在无正则化的情况下提供末次迭代收敛?
  • RQ2如何以保持收敛性保证的方式将 BNN 动力学扩展到广义形博弈?
  • RQ3神经演员–评论家实现是否能够在大规模的 NFG 和 EFG 中近似 BNN 动力学?
  • RQ4相较于非平稳收益下的正则化方法,基于 BNN 的方法的表现如何?
  • RQ5在随机反馈下,理论收敛速率和噪声底特征是什么?

主要发现

  • BNN 动力学在常规形式的零和博弈中无需正则化即可实现末次迭代收敛。
  • 通过对照事实加权将框架扩展到广义形博弈,并保持收敛性保证。
  • 带有神经函数近似的 BNNAC 算法与理论预测一致,且可扩展到大规模博弈。
  • 经验结果表明在非平稳情形下相较于正则化的 RD 方法具有更快的适应性和更稳定的收敛。
  • 收敛呈现一个 O(σ) 的噪声底和一个 O(σ^2) 的质心偏移,在无噪声和有噪声情形下呈现 t^{-2/3} 的衰减。
  • 该方法在避免正则化方法的超参数调优负担的同时仍具鲁棒性。
(b) Representative trajectories and their convergence behavior.
(b) Representative trajectories and their convergence behavior.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。