Skip to main content
QUICK REVIEW

[论文解读] Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity

Kaiqing Zhang, Sham M. Kakade|arXiv (Cornell University)|Jul 15, 2020
Reinforcement Learning in Robotics参考文献 69被引用 24
一句话总结

该论文在使用生成模型的双人零和马尔可夫对策中,首次建立了近最小最大最优的样本复杂度。它表明,该方法在找到 $\epsilon$-Nash 平衡时的样本复杂度为 $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}||\mathcal{B}|(1-\gamma)^{-3}\epsilon^{-2})$,在奖励无关设定下达到最小最大最优(仅对数因子有差异),在奖励相关情况下为近似最优。

ABSTRACT

Model-based reinforcement learning (RL), which finds an optimal policy using an empirical model, has long been recognized as one of the corner stones of RL. It is especially suitable for multi-agent RL (MARL), as it naturally decouples the learning and the planning phases, and avoids the non-stationarity problem when all agents are improving their policies simultaneously using samples. Though intuitive and widely-used, the sample complexity of model-based MARL algorithms has not been fully investigated. In this paper, our goal is to address the fundamental question about its sample complexity. We study arguably the most basic MARL setting: two-player discounted zero-sum Markov games, given only access to a generative model. We show that model-based MARL achieves a sample complexity of $ ilde O(|S||A||B|(1-γ)^{-3}ε^{-2})$ for finding the Nash equilibrium (NE) value up to some $ε$ error, and the $ε$-NE policies with a smooth planning oracle, where $γ$ is the discount factor, and $S,A,B$ denote the state space, and the action spaces for the two agents. We further show that such a sample bound is minimax-optimal (up to logarithmic factors) if the algorithm is reward-agnostic, where the algorithm queries state transition samples without reward knowledge, by establishing a matching lower bound. This is in contrast to the usual reward-aware setting, with a $ ildeΩ(|S|(|A|+|B|)(1-γ)^{-3}ε^{-2})$ lower bound, where this model-based approach is near-optimal with only a gap on the $|A|,|B|$ dependence. Our results not only demonstrate the sample-efficiency of this basic model-based approach in MARL, but also elaborate on the fundamental tradeoff between its power (easily handling the more challenging reward-agnostic case) and limitation (less adaptive and suboptimal in $|A|,|B|$), particularly arises in the multi-agent context.

研究动机与目标

  • 分析在生成模型下,双人零和马尔可夫对策中基于模型的多智能体强化学习的样本复杂度。
  • 解决一个基本问题:简单的基于模型方法(先学习模型,再进行规划)是否能实现近似最优的样本效率。
  • 在多智能体强化学习中,区分奖励相关与奖励无关设定,特别是针对样本复杂度下限的差异。
  • 在奖励无关情况下建立匹配的下限,证明其在对数因子范围内达到最小最大最优。
  • 阐明该方法在处理多个奖励函数(无需重新采样)的能力与其在奖励相关情况下对 $|A|$ 和 $|B|$ 的次优依赖之间的权衡。

提出的方法

  • 该方法采用基于模型的策略,首先通过生成模型采样的数据估计转移模型,然后应用规划来计算均衡策略。
  • 它利用一个平滑的规划预言机,在经验模型中计算Nash均衡策略,确保收敛到 $\epsilon$-Nash 均衡。
  • 通过集中不等式和高概率偏差界来限制值函数估计误差,依赖于生成模型的独立同分布采样特性。
  • 推导出实现 $\epsilon$-Nash 均衡的样本复杂度界为 $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}||\mathcal{B}|(1-\gamma)^{-3}\epsilon^{-2})$。
  • 论文在奖励无关设定下建立了匹配的下限,证明其在对数因子范围内达到最小最大最优。
  • 它区分了奖励相关与奖励无关设定,表明该基于模型的方法在前者中为近似最优,在后者中为最优。

实验结果

研究问题

  • RQ1在访问生成模型的前提下,基于模型的多智能体强化学习在双人零和马尔可夫对策中的样本复杂度是多少?
  • RQ2在奖励无关设定下(奖励不用于数据收集),基于模型的方法是否达到最小最大最优?
  • RQ3在奖励相关情况下,基于模型方法的样本复杂度与信息论下限相比如何?
  • RQ4该方法在处理多个奖励函数的能力与对动作空间大小 $|A|$ 和 $|B|$ 的依赖之间存在何种根本性权衡?
  • RQ5能否在奖励无关情况下建立与上界匹配的下界,从而证明最小最大最优?

主要发现

  • 基于模型的多智能体强化学习方法在双人零和马尔可夫对策中,实现 $\epsilon$-Nash 均衡的样本复杂度为 $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}||\mathcal{B}|(1-\gamma)^{-3}\epsilon^{-2})$。
  • 在奖励无关设定下,该样本复杂度在对数因子范围内达到最小最大最优,此时奖励不用于模型采样。
  • 在奖励相关设定下,该方法为近似最优,仅在对 $|A|$ 和 $|B|$ 的依赖上与下界 $\tilde{\Omega}(|\mathcal{S}|(|\mathcal{A}|+|\mathcal{B}|)(1-\gamma)^{-3}\epsilon^{-2})$ 存在差距。
  • 该方法具有极高的样本效率,因为样本复杂度与状态空间和动作空间大小的乘积成正比,而非与奖励函数数量成正比。
  • 该方法在无需重新采样的情况下可高效处理多个奖励函数,因为同一模型可被重复用于不同奖励函数。
  • 分析揭示了一个根本性权衡:尽管该方法在奖励无关情况下稳健且高效,但在奖励相关情况下适应性较差且次优,原因在于其对 $|A|$ 和 $|B|$ 的依赖。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。