QUICK REVIEW

[论文解读] No-regret learning dynamics for extensive-form correlated and coarse correlated equilibria.

Andrea Celli, Alberto Marchesi|arXiv (Cornell University)|Apr 1, 2020

Game Theory and Applications被引用 4

一句话总结

本文在n人一般和博弈的广义形式相关均衡（EFCE）与粗略相关均衡（EFCCE）中，基于反事实遗憾最小化（CFR）框架，提出了无遗憾学习动态。该研究提出了一种专为广义形式博弈设计的新内部遗憾概念，并开发了一种高效的无内部遗憾算法以实现EFCE的收敛；同时表明，标准CFR算法在未经修改的情况下即可收敛至EFCCE。

ABSTRACT

Recently, there has been growing interest around less-restrictive solution concepts than Nash equilibrium in extensive-form games, with significant effort towards the computation of extensive-form correlated equilibrium (EFCE) and extensive-form coarse correlated equilibrium (EFCCE). In this paper, we show how to leverage the popular counterfactual regret minimization (CFR) paradigm to induce simple no-regret dynamics that converge to the set of EFCEs and EFCCEs in an n-player general-sum extensive-form games. For EFCE, we define a notion of internal regret suitable for extensive-form games and exhibit an efficient no-internal-regret algorithm. These results complement those for normal-form games introduced in the seminal paper by Hart and Mas-Colell. For EFCCE, we show that no modification of CFR is needed, and that in fact the empirical frequency of play generated when all the players use the original CFR algorithm converges to the set of EFCCEs.

研究动机与目标

将无遗憾学习动态扩展至n人一般和博弈中的广义形式相关均衡与粗略相关均衡。
解决在n人广义形式博弈中计算EFCE与EFCCE缺乏高效实用算法的问题。
将反事实遗憾最小化（CFR）范式适配至EFCE与EFCCE的收敛，通过新颖的遗憾定义与算法实现。
将Hart与Mas-Colell在标准形式博弈中的开创性结果推广至广义形式博弈。

提出的方法

提出一种专为广义形式博弈设计的新内部遗憾概念，使该设定下的无内部遗憾学习成为可能。
设计一种高效无内部遗憾算法，利用广义形式博弈的结构与反事实遗憾最小化机制。
证明当所有玩家均使用标准CFR时，其行为经验频率在未经任何修改的情况下收敛至EFCCE集合。
利用CFR框架以兼容序贯决策中相关均衡概念的方式计算并最小化反事实遗憾。
基于广义形式博弈设定下的遗憾最小化原理，为EFCE与EFCCE建立理论收敛保证。
将遗憾最小化范式适配至信息集与序贯决策节点的处理，以支持相关行为的实现。

实验结果

研究问题

RQ1无遗憾学习动态能否被扩展至n人一般和博弈中的广义形式相关均衡（EFCE）？
RQ2在广义形式博弈背景下，何种内部遗憾定义可支持EFCE的收敛？
RQ3标准CFR算法在未经修改的情况下是否可在广义形式博弈中收敛至EFCCE？
RQ4如何将反事实遗憾最小化框架适配以支持序贯博弈中的相关均衡概念？
RQ5Hart与Mas-Colell在标准形式博弈中的理论结果能否推广至广义形式博弈？

主要发现

为广义形式博弈定义了一种新颖的内部遗憾概念，使能够设计出收敛至EFCE集合的无内部遗憾学习算法。
提出了一种高效无内部遗憾算法，该算法在CFR框架内运行，并确保在n人一般和博弈的广义形式中收敛至EFCE。
当所有玩家使用标准CFR时，其行为经验频率在未经任何算法修改的情况下收敛至EFCCE集合。
通过反事实遗憾最小化的性质与博弈树结构，建立了至EFCCE的收敛性。
该研究将遗憾最小化在序贯博弈中相关均衡的应用范围扩展，与Hart与Mas-Colell在标准形式博弈中的结果相呼应。
该框架为在复杂现实世界的广义形式博弈中计算与学习EFCE与EFCCE，提供了一种实用且理论基础坚实的解决方案。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。