Skip to main content
QUICK REVIEW

[论文解读] On the robustness of learning in games with stochastically perturbed payoff observations

Mario Bravo, Panayotis Mertikopoulos|arXiv (Cornell University)|Dec 19, 2014
Game Theory and Applications参考文献 73被引用 26
一句话总结

本文研究了玩家在接收随机扰动收益观测值的游戏中的学习动态,表明尽管噪声水平任意,单人场景下玩家仍可实现无遗憾,多人游戏中则收敛至纳什均衡。主要成果包括:劣策略的灭绝、严格纳什均衡的随机稳定性,以及在具有内部均衡的零和博弈中时间平均收敛至均衡。

ABSTRACT

Motivated by the scarcity of accurate payoff feedback in practical applications of game theory, we examine a class of learning dynamics where players adjust their choices based on past payoff observations that are subject to noise and random disturbances. First, in the single-player case (corresponding to an agent trying to adapt to an arbitrarily changing environment), we show that the stochastic dynamics under study lead to no regret almost surely, irrespective of the noise level in the player's observations. In the multi-player case, we find that dominated strategies become extinct and we show that strict Nash equilibria are stochastically stable and attracting; conversely, if a state is stable or attracting with positive probability, then it is a Nash equilibrium. Finally, we provide an averaging principle for 2-player games, and we show that in zero-sum games with an interior equilibrium, time averages converge to Nash equilibrium for any noise level.

研究动机与目标

  • 研究当收益观测值受到随机噪声污染时,博弈中的学习动态是否仍保持理性和稳定。
  • 将强化学习(如指数加权)的已知收敛性质扩展至存在不完美、噪声反馈的场景。
  • 确定严格纳什均衡在任意噪声水平下是否仍保持随机稳定且具有吸引性。
  • 确定在具有内部均衡的两人零和博弈中,玩家行为的时间平均收敛至纳什均衡的条件。

提出的方法

  • 采用基于累积收益得分的连续时间强化学习框架建模玩家策略更新,其中通过softmax(指数加权)选择动作。
  • 通过带布朗运动的伊藤过程引入收益观测值的随机扰动,以建模现实世界中的不确定性。
  • 利用Fenchel对偶耦合与凸共轭函数分析收敛性与稳定性,结合随机分析与鞅理论工具。
  • 运用伊藤公式推导策略向量与收益向量之间Fenchel对偶耦合的动力学,从而分析遗憾与稳定性。
  • 应用平均化原理,证明在两人零和博弈中,玩家行为的时间平均收敛至纳什均衡。
  • 基于李雅普诺夫函数与大偏差技术,采用随机稳定性论证,证明严格均衡以正概率被吸引。

实验结果

研究问题

  • RQ1当收益观测值受到任意高水平噪声污染时,指数加权学习的无遗憾性质是否依然成立?
  • RQ2在多人博弈中,劣策略是否仍会在随机收益扰动下被灭绝?
  • RQ3即使玩家接收到噪声收益信号,严格纳什均衡是否仍保持随机稳定且具有吸引性?
  • RQ4在存在噪声反馈的两人零和博弈中,行为时间平均在何种条件下收敛至纳什均衡?
  • RQ5能否在一般随机扰动下为学习动态建立普遍的一致性结果(即无遗憾)?

主要发现

  • 在单人场景中,无论收益观测值的噪声水平如何,玩家几乎必然实现无遗憾。
  • 在多人博弈中,所提出的动态下劣策略几乎必然灭绝。
  • 即使收益观测值的方差任意高,严格纳什均衡仍保持随机稳定且具有吸引性。
  • 若某状态以正概率为稳定或吸引状态,则其必为纳什均衡。
  • 在具有内部纳什均衡的两人零和博弈中,无论噪声水平如何,行为的时间平均均收敛至纳什均衡。
  • 对于两人博弈,平均化原理成立,确保在随机扰动下经验行为收敛至均衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。