QUICK REVIEW

[论文解读] On Finding Local Nash Equilibria (and Only Local Nash Equilibria) in Zero-Sum Games

Eric Mazumdar, Michael I. Jordan|arXiv (Cornell University)|Jan 3, 2019

Advanced Bandit Algorithms Research参考文献 23被引用 78

一句话总结

论文提出了 Local Symplectic Surgery，一种两时间尺度的方法，在双人零和连续博弈中收敛于局部纳什均衡，并且避免了会阻碍梯度动态的非纳什吸引点。

ABSTRACT

We propose local symplectic surgery, a two-timescale procedure for finding local Nash equilibria in two-player zero-sum games. We first show that previous gradient-based algorithms cannot guarantee convergence to local Nash equilibria due to the existence of non-Nash stationary points. By taking advantage of the differential structure of the game, we construct an algorithm for which the local Nash equilibria are the only attracting fixed points. We also show that the algorithm exhibits no oscillatory behaviors in neighborhoods of equilibria and show that it has the same per-iteration complexity as other recently proposed algorithms. We conclude by validating the algorithm on two numerical examples: a toy example with multiple Nash equilibria and a non-Nash equilibrium, and the training of a small generative adversarial network (GAN).

研究动机与目标

识别零和博弈中梯度方法的局限性，原因是存在非纳什吸引点。
提出一个基于动力学的算法，使其吸引点与局部（微分）纳什均衡严格对应。
确保该方法在近似平衡处避免振荡，并且每次迭代的复杂度与现有梯度方法相当。

提出的方法

定义一个极限连续时间流，其吸引点恰好是局部纳什均衡。
引入一个两时间尺度的离散化（Local Symplectic Surgery），在不进行矩阵求逆的情况下近似极限动力学。
使用一个辅助变量实现一个快速调整项，以在临界点附近抵消雅可比矩阵的反对称部分。
证明极限动力学的唯一吸引固定点是微分纳什均衡。
通过两时间尺度随机逼近框架，证明对无偏随机估计和噪声具有鲁棒性。
给出一个小型 GAN 实验和一个二维示例来验证收敛到局部纳什均衡的效果。

实验结果

研究问题

RQ1梯度为基础的动态在零和博弈中是否会收敛到非纳什的驻点，且在何种条件下？
RQ2如何设计动态，其吸引固定点与零和博弈中的（微分）局部纳什均衡严格一致？
RQ3在存在噪声的情况下，两时间尺度离散化是否能可靠地跟踪期望的连续时间动力学？
RQ4与标准梯度方法相比，每次迭代的计算成本如何，是否可以避免矩阵求逆？
RQ5经验实验（玩具示例和 GAN）是否支持收敛到局部纳什均衡并避免非纳什吸引子？

主要发现

所提出的 Local Symplectic Surgery 确保唯一的吸引固定点是局部纳什均衡。
连续时间动力学在平衡附近不表现出振荡，并且在临界点具有实特征值，避免极限环。
两时间尺度实现可以在不进行矩阵求逆的情况下计算，并保持与其他基于梯度的方法相当的复杂度。
该方法消除了收敛到非纳什 LASE 的情况，避免了像共识优化和辛对称梯度调整等其他梯度调整方法被困的情况。
数值实验在一个玩具示例中显示收敛到局部纳什均衡，并在提出的方法下成功训练了一个小型 GAN。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。