[论文解读] Deep Fictitious Play for Finding Markovian Nash Equilibrium in Multi-Agent Games
本文提出了一种深度虚构博弈算法,该算法将虚构博弈与深度倒向随机微分方程(deep BSDE)相结合,用于计算大规模N人随机微分博弈中的马尔可夫纳什均衡。通过使用深度学习迭代求解每个玩家的解耦HJB方程,该方法克服了维度灾难问题,并在高维、异质性或风险敏感的博弈中准确找到均衡,即使存在共同噪声——已在50人银行间借贷博弈中成功验证。
We propose a deep neural network-based algorithm to identify the Markovian Nash equilibrium of general large $N$-player stochastic differential games. Following the idea of fictitious play, we recast the $N$-player game into $N$ decoupled decision problems (one for each player) and solve them iteratively. The individual decision problem is characterized by a semilinear Hamilton-Jacobi-Bellman equation, to solve which we employ the recently developed deep BSDE method. The resulted algorithm can solve large $N$-player games for which conventional numerical methods would suffer from the curse of dimensionality. Multiple numerical examples involving identical or heterogeneous agents, with risk-neutral or risk-sensitive objectives, are tested to validate the accuracy of the proposed algorithm in large group games. Even for a fifty-player game with the presence of common noise, the proposed algorithm still finds the approximate Nash equilibrium accurately, which, to our best knowledge, is difficult to achieve by other numerical algorithms.
研究动机与目标
- 开发一种可扩展的数值算法,用于计算因维度灾难导致传统方法失效的大规模N人随机微分博弈中的马尔可夫纳什均衡。
- 解决均场博弈理论的局限性,该理论要求对称性且在存在共同噪声或中等规模N时失效,通过支持一般异质性和噪声结构来实现改进。
- 利用深度学习求解虚构博弈中由个体决策问题产生的高维、耦合的汉密尔顿-雅可比-贝尔曼(HJB)方程。
- 将基于深度学习的方法的应用范围从开环均衡扩展到反馈(马尔可夫)策略,借助HJB框架实现。
- 在具有与不具有解析解的问题上验证该方法,包括非线性漂移项和风险敏感目标。
提出的方法
- 通过虚构博弈将N人随机微分博弈分解为N个解耦的个体决策问题,其中每个玩家的策略在假设其他玩家策略固定时进行优化。
- 将每个个体决策问题建模为半线性汉密尔顿-雅可比-贝尔曼(HJB)方程,该方程刻画了在马尔可夫信息下的最优反馈控制。
- 采用深度BSDE方法数值求解每个HJB方程,使用深度神经网络近似值函数及其导数。
- 在反馈循环中迭代更新所有玩家的策略,利用对手策略的最新估计值来优化每个玩家的最优响应。
- 在对称博弈中,通过在所有玩家间共享单个神经网络来利用对称性,从而降低计算成本,每轮迭代仅需求解一个HJB方程。
- 使用10,000条路径的蒙特卡洛模拟验证所学策略,通过将终端状态和控制的实证分布与已知或预期分布进行比较。
实验结果
研究问题
- RQ1深度虚构博弈能否在具有异质性参与者和共同噪声的大规模N人随机微分博弈中准确计算马尔可夫纳什均衡?
- RQ2该算法在无闭式解的博弈中表现如何,特别是针对具有非线性漂移项或风险敏感目标的博弈?
- RQ3与传统数值格式相比,该方法在多大程度上克服了维度灾难?
- RQ4在N=50名玩家的对称博弈中,即使缺乏解析解,该算法能否保持准确性和效率?
- RQ5共同噪声的存在如何影响算法的收敛性和准确性?其性能是否仍优于均场博弈近似?
主要发现
- 该算法在存在共同噪声的50人银行间借贷博弈中成功计算出纳什均衡,尽管缺乏解析解,仍实现了高精度。
- 在线性漂移情况下,终端状态和控制的实证分布与真实高斯分布高度吻合,峰度值接近3,证实了解的正确性。
- 在非线性漂移情况(立方项)下,算法捕捉到了非高斯行为:终端状态峰度为2.72 < 3,控制峰度为2.36 < 3,表明尾部比高斯分布更厚,与理论预期一致。
- 该方法在多次迭代中保持了高精度与稳定性,所有测试实例中所学策略与真实均衡的偏差极小。
- 在有限N情况下,该方法在准确性上显著优于均场博弈近似,尤其在参与者异质性或存在共同噪声时。
- 通过利用对称性并共享神经网络,计算成本降低了N倍,使大规模模拟成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。