[论文解读] Open-ended Learning in Symmetric Zero-sum Games
该论文在对称零和博弈中引入一个几何框架(功能形式博弈和博弈景观)用于开放式学习,并提出改正的 Nash PSRO_rN 算法,以产生多样且高效的代理人群体,在高度非传递性设置中超过自对弈。
Zero-sum games such as chess and poker are, abstractly, functions that evaluate pairs of agents, for example labeling them `winner' and `loser'. If the game is approximately transitive, then self-play generates sequences of agents of increasing strength. However, nontransitive games, such as rock-paper-scissors, can exhibit strategic cycles, and there is no longer a clear objective -- we want agents to increase in strength, but against whom is unclear. In this paper, we introduce a geometric framework for formulating agent objectives in zero-sum games, in order to construct adaptive sequences of objectives that yield open-ended learning. The framework allows us to reason about population performance in nontransitive games, and enables the development of a new algorithm (rectified Nash response, PSRO_rN) that uses game-theoretic niching to construct diverse populations of effective agents, producing a stronger set of agents than existing algorithms. We apply PSRO_rN to two highly nontransitive resource allocation games and find that PSRO_rN consistently outperforms the existing alternatives.
研究动机与目标
- 在两人零和博弈中,当非传递性使改进变得复杂时,推动开放式学习。
- 形式化一个几何框架(功能形式博弈和博弈景观)以分析群体层面的学习。
- 提出能够扩展策略景观、从而产生更强大且多样化的代理人的算法。
提出的方法
- 定义对称零和功能形式博弈(FFGs),并将它们分解为传递性分量和循环分量(定理1)。
- 引入博弈景观(FGS)和经验博弈景观(EGS)来研究群体互动与绩效。
- 定义群体绩效和有效多样性以指导群体增长(定义3和定义4)。
- 提出 PSRO_N(Nash 响应)以对抗 Nash 混合体进行训练,及 PSRO_rN(改正的 Nash)通过利基化来放大多样性,确保扩展博弈景观(算法 3 和 4)。
- 证明当存在正向利用时,PSRO_N 可以扩展博弈景观;并且 PSRO_rN 通过聚焦正向报复方向来增强多样性(命题 6 和 7)。
- 在高度非传递的资源分配游戏(如 Colonel Blotto 和可微 Lotto)上演示该方法(K 实验)。
实验结果
研究问题
- RQ1如何在非传递性零和博弈中表征和计算开放式学习目标?
- RQ2基于群体的目标和以多样性为焦点的机制是否能够可靠地扩展策略景观并优于自对弈?
- RQ3在非传递性博弈中,PSRO_rN 风格的 niching 方法是否比 PSRO_N 或 PSRO_U 产生更强大、更多样的代理人群体?
- RQ4功能形式博弈和博弈景观如何帮助诊断并引导在循环组件与传递性组件中的学习?
主要发现
- 在 Blotto 和可微 Lotto 的实验中,PSRO_rN 持续优于自对弈、PSRO_N 和 PSRO_U。
- 用 PSRO_rN 扩展经验博弈景观会随着时间产生更大的凸包,表明更广泛且更有效的策略多样性。
- 基于正向 Nash 支持的互动的有效多样性随着博弈景观的扩展而增加,反映出对手利用的更丰富。
- 在经验设置中的 Nash 均衡为训练提供了稳定的参考,而不需要在循环博弈中出现单一最佳代理。
- 改正的 Nash 增强了在 Nash 支持的代理中的正坐标,促使利基多样性和更广泛的策略空间探索。
- 该方法通过不断扩展群体的策略景观而非收敛到固定解,展示了开放式学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。