[论文解读] Global Convergence of Multi-Agent Policy Gradient in Markov Potential Games
本文提出了马尔可夫势博弈(MPGs),这是一种新型的多智能体马尔可夫决策过程,其中通过状态相关的势函数使智能体效用对齐。证明了独立策略梯度下降在确定性策略梯度下全局收敛至 $\tilde{O}(1/\epsilon^2)$ 次迭代,在随机策略梯度下收敛至 $\tilde{O}(1/\epsilon^6)$ 次迭代,实现对 $\tilde{O}(\epsilon)$-纳什策略的 $\tilde{O}(1/\epsilon^2)$ 收敛速率。
Potential games are arguably one of the most important and widely studied classes of normal form games. They define the archetypal setting of multi-agent coordination as all agent utilities are perfectly aligned with each other via a common potential function. Can this intuitive framework be transplanted in the setting of Markov Games? What are the similarities and differences between multi-agent coordination with and without state dependence? We present a novel definition of Markov Potential Games (MPG) that generalizes prior attempts at capturing complex stateful multi-agent coordination. Counter-intuitively, insights from normal-form potential games do not carry over as MPGs can consist of settings where state-games can be zero-sum games. In the opposite direction, Markov games where every state-game is a potential game are not necessarily MPGs. Nevertheless, MPGs showcase standard desirable properties such as the existence of deterministic Nash policies. In our main technical result, we prove fast convergence of independent policy gradient to Nash policies by adapting recent gradient dominance property arguments developed for single agent MDPs to multi-agent learning settings.
研究动机与目标
- 将正常形式势博弈推广至具有状态依赖协调机制的马尔可夫博弈,形式化为势函数。
- 解决合作设置下多智能体策略梯度缺乏理论收敛保证的问题。
- 证明在马尔可夫势博弈中纳什策略存在且可确定性实现。
- 证明在确定性和随机设置下,独立策略梯度可多项式时间收敛至近似纳什策略。
提出的方法
- 通过状态依赖的势函数 $\Phi$ 定义马尔可夫势博弈(MPGs),使得单个智能体效用的变化与 $\Phi$ 的变化一致。
- 将单智能体MDP中的梯度支配性质适配至多智能体设置,以分析策略梯度的收敛性。
- 对确定性策略梯度采用直接参数化,对随机策略梯度采用贪婪参数化。
- 在智能体间采用同步更新,建模独立学习动力学。
- 应用单智能体强化学习中的技术,包括熵正则化和自然策略梯度扩展,作为未来方向。
- 证明了结构性质,如通过势函数对齐实现确定性纳什策略的存在性。
实验结果
研究问题
- RQ1是否可以使用势函数对马尔可夫博弈中的合作型多智能体协调进行形式化,从而推广正常形式势博弈?
- RQ2正常形式势博弈的标准性质(如确定性纳什均衡的存在性)是否可推广至马尔可夫势博弈?
- RQ3在MPGs中,独立策略梯度是否能全局收敛至纳什策略,收敛速率如何?
- RQ4与精确梯度相比,随机梯度和有限样本设置如何影响MPGs中的收敛性?
主要发现
- 马尔可夫势博弈(MPGs)通过状态依赖的势函数,将正常形式势博弈推广至具有状态记忆的多智能体马尔可夫决策过程。
- 每个MPG至少存在一个确定性纳什策略组合,确保纯策略均衡的存在性。
- 在精确梯度下,独立策略梯度在 $\mathcal{O}(1/\epsilon^2)$ 次迭代内收敛至 $\tilde{O}(\epsilon)$-纳什策略。
- 对于采用贪婪参数化的随机策略梯度,收敛至 $\tilde{O}(\epsilon)$-纳什策略需 $\mathcal{O}(1/\epsilon^6)$ 次迭代。
- 收敛速率与近似误差的倒数呈多项式关系,为合作型多智能体强化学习提供了强有力的理论保证。
- 出人意料的是,MPGs可能包含零和子博弈,且并非所有具有势博弈结构的马尔可夫博弈都是MPGs,凸显了其结构复杂性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。