Skip to main content
QUICK REVIEW

[论文解读] Bandit learning in concave $N$-person games

Mario Bravo, David S. Leslie|arXiv (Cornell University)|Oct 3, 2018
Advanced Bandit Algorithms Research被引用 28
一句话总结

该论文在非凸 $N$-人博弈中,通过镜像下降与无 regret 学习,在 bandit 反馈下建立了几乎必然收敛到纳什均衡的结果。在单调性条件下,该算法以概率 1 收敛到均衡,收敛速率为 $ olimits\mathcal{O}(1/n^{1/3})$,几乎达到单智能体 bandit 优化中已知的最佳速率。

ABSTRACT

This paper examines the long-run behavior of learning with bandit feedback in non-cooperative concave games. The bandit framework accounts for extremely low-information environments where the agents may not even know they are playing a game; as such, the agents' most sensible choice in this setting would be to employ a no-regret learning algorithm. In general, this does not mean that the players' behavior stabilizes in the long run: no-regret learning may lead to cycles, even with perfect gradient information. However, if a standard monotonicity condition is satisfied, our analysis shows that no-regret learning based on mirror descent with bandit feedback converges to Nash equilibrium with probability $1$. We also derive an upper bound for the convergence rate of the process that nearly matches the best attainable rate for single-agent bandit stochastic optimization.

研究动机与目标

  • 分析在仅接收标量奖励而无梯度信息的 bandit 反馈下,非合作凹博弈中无 regret 学习的长期行为。
  • 确定尽管信息有限且可能存在循环行为,无 regret 学习是否仍能收敛到纳什均衡。
  • 建立镜像下降结合 bandit 反馈在凹博弈中确保几乎必然收敛到纳什均衡的条件。
  • 推导 bandit 反馈下学习过程的收敛速率界,并与单智能体设置下的最优可能速率进行比较。

提出的方法

  • 采用带 bandit 反馈的镜像下降,玩家使用两点随机近似(SPSA)方案估计梯度。
  • 利用渐近伪轨迹(APT)框架,将连续时间动力学的收敛结果转化为离散时间学习过程的结果。
  • 采用基于 Bregman 散度的分析方法,追踪与纳什均衡的距离,其中 $D_n = \frac{1}{2}\|X_n - x^*\|^2$ 作为势函数。
  • 对博弈的收益梯度施加 $\beta$-强单调性条件,以确保收敛到唯一纳什均衡。
  • 推导出期望 Bregman 散度的递归不等式:$\bar{D}_{n+1} \leq (1 - \beta\gamma_n)\bar{D}_n + B\gamma_n\delta_n + \frac{V^2}{2K}\frac{\gamma_n^2}{\delta_n^2}$,用于界定收敛速率。
  • 使用步长调度 $\gamma_n = \gamma / n^p$,并通过 $\delta_n = \delta / n^q$ 实现偏差-方差控制,优化 $p$ 和 $q$ 以平衡偏差与方差项。

实验结果

研究问题

  • RQ1在何种条件下,带 bandit 反馈的无 regret 学习可在凹 $N$-人博弈中收敛到纳什均衡?
  • RQ2即使玩家缺乏完整梯度信息,带 bandit 反馈的镜像下降是否仍能实现收敛到均衡?
  • RQ3此类学习过程可实现的最优收敛速率是多少?与单智能体 bandit 优化相比如何?
  • RQ4博弈结构中存在单调性是否能确保在有限反馈下无 regret 学习的稳定化?
  • RQ5在标准步长调度与 SPSA 梯度估计下,能否将收敛速率提升至超过 $\mathcal{O}(1/n^{1/3})$?

主要发现

  • 在 $\beta$-强单调性条件下,带 bandit 反馈的镜像下降以概率 1 收敛到纳什均衡。
  • 当采用步长调度 $\gamma_n = \gamma / n$ 和偏差控制 $\delta_n = \delta / n^{1/3}$ 时,期望 Bregman 散度的收敛速率为 $\mathcal{O}(1/n^{1/3})$。
  • 在 oracle 情况下(具备完整梯度信息),收敛速率提升至 $\mathcal{O}(1/n)$,与单智能体 bandit 优化中已知的最佳速率一致。
  • 在标准 SPSA 估计下,通过调整步长指数 $p$ 无法进一步提升 $\mathcal{O}(1/n^{1/3})$ 的收敛速率,因为偏差-方差权衡限制了进一步改进。
  • 分析表明,在单调性假设下,即使在 bandit 反馈下,非单调博弈中常见的循环与混沌行为也可被避免。
  • 在给定条件下,该收敛结果对实际动作序列和时间平均行为均成立。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。