QUICK REVIEW

[论文解读] Smoothed Analysis of Deterministic Discounted and Mean-Payoff Games

Bruno Loff, Mateusz Skomra|arXiv (Cornell University)|Jan 1, 2024

Decision-Making and Behavioral Economics被引用 1

一句话总结

本文提出了一种用于确定性双人折扣游戏和平均支付游戏的策略迭代算法，在收益随机扰动的平滑分析下，该算法以高概率在多项式时间内运行。该文引入了这类游戏的条件数，并证明了算法的运行时间在该条件数上是多项式时间的，从而解决了长期存在的一个猜想，并与近期在随机设置下的反例形成对比。

ABSTRACT

We devise a policy-iteration algorithm for deterministic two-player discounted and mean-payoff games, that runs in polynomial time with high probability, on any input where each payoff is chosen independently from a sufficiently random distribution. This includes the case where an arbitrary set of payoffs has been perturbed by a Gaussian, showing for the first time that deterministic two-player games can be solved efficiently, in the sense of smoothed analysis. More generally, we devise a condition number for deterministic discounted and mean-payoff games, and show that our algorithm runs in time polynomial in this condition number. Our result confirms a previous conjecture of Boros et al., which was claimed as a theorem and later retracted. It stands in contrast with a recent counter-example by Christ and Yannakakis, showing that Howard's policy-iteration algorithm does not run in smoothed polynomial time on stochastic single-player mean-payoff games. Our approach is inspired by the analysis of random optimal assignment instances by Frieze and Sorkin, and the analysis of bias-induced policies for mean-payoff games by Akian, Gaubert and Hochart.

研究动机与目标

解决Boros等人关于确定性双人游戏中策略迭代算法在平滑多项式时间效率的猜想。
为确定性折扣和平均支付游戏建立一个条件数，以捕捉算法的可计算性。
证明随机收益扰动（例如高斯分布）可使实例在高概率下成为良条件实例。
将结果与近期反例进行对比，这些反例表明Howard的策略迭代规则在随机设置下会失效。
探讨该结果对组合算法及复杂度类UEOPL的更广泛影响。

提出的方法

设计一种专为具有折扣和平均支付目标的确定性双人游戏量身定制的新策略迭代算法。
基于价值向量对收益扰动的敏感性，引入一个条件数，该条件数推广了线性规划中的概念。
利用平滑分析证明：以高概率，随机收益扰动会导致条件数有多项式有界的实例。
借鉴Frieze和Sorkin（2007）关于随机分配问题的技术，以及Akian、Gaubert和Hochart（2018）关于偏差诱导策略的技术。
通过迭代更新折扣因子和收益向量来分析收敛性，限制策略切换次数和每轮的系统求解次数。
证明在条件数下，迭代次数和每轮的系统求解次数均保持多项式时间，从而确保整体平滑复杂度为多项式时间。

实验结果

研究问题

RQ1确定性双人折扣和平均支付游戏的策略迭代算法能否实现平滑多项式时间复杂度？
RQ2是否存在一个明确定义的条件数，使得算法运行时间在该度量下为多项式时间？
RQ3随机收益扰动（例如高斯分布）是否足以确保实例在高概率下为良条件实例？
RQ4该结果与近期反例相比如何，这些反例表明Howard的策略迭代规则在随机设置下会失效？
RQ5所提出的策略迭代规则能否推广或适配到非遍历图或随机游戏？

主要发现

当收益独立地由高斯分布扰动时，所提出的策略迭代算法在平滑分析下以高概率在多项式时间内运行。
该算法的运行时间受所引入条件数的多项式界约束，该条件数衡量了价值向量对收益变化的敏感性。
当收益被随机扰动时，条件数以高概率有多项式有界性，从而确保了平滑多项式复杂度。
该结果证实了Boros等人提出的猜想，该猜想曾被提出后又撤回，现提供了正确且完整的证明。
分析表明，Howard的策略迭代规则无法以相同方式推广到确定性设置中，因为它在随机情况下会失效，这表明需要专门设计的规则。
该工作为所有UEOPL问题在合适扰动模型下可能变得可计算打开了可能性，尽管这仍是一个猜想。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。